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Prologo 


La Inteligencia Artificial (IA) es un campo grande (enorme), y este libro también. He 
intentado explorarlo con plena profundidad acompanândolo constantemente de lôgica, 
probabilidad y matemâticas; de perception, razonamiento, aprendizaje y action, es 
decir, de todo lo que procédé de los dispositivos microelectronicos hasta los explorado- 
res del planetario de la robotica. Otra razôn para que este libro se pueda considerar 
espléndido es la profundidad en la présentation de los resultados, aunque nos hayamos 
esforzado por abarcar solo las ideas mas centrales en la parte principal de cada capitu- 
lo. En las notas bibliogrâficas al final de cada capitulo se proporcionan consejos para 
promover resultados. 

El subtitulo de este libro es «Un Enfoque Moderno». La intenciôn de esta frase bas- 
tante vacia es el hecho de que hemos intentado sintetizar lo que se conoce ahora dentro 
de un marco de trabajo comün, en vez de intentar explicar cada uno de los subcampos 
de la IA dentro de su propio contexto historico. Nos disculpamos ante aquellos cuyos 
subcampos son, como resultado, menos reconocibles de lo que podrian haber sido de cual- 
quier otra forma. 

El principal tema unificador es la idea del agente inteligente. Definimos la IA como 
el estudio de los agentes que reciben percepciones del entorno y llevan a cabo las ac- 
ciones. Cada agente implémenta una funciôn la cual estructura las secuencias de las per¬ 
cepciones en acciones; también tratamos las diferentes formas de representar estas fun- 
ciones, taies como sistemas de production, agentes reactivos, planificadores condicionales 
en tiempo real, redes neurales y sistemas teoricos para las decisiones. Explicaremos el 
papel del aprendizaje cuando alcanza al disenador y como se introduce en entomos des- 
conocidos, mostrando también como ese papel limita el diseno del agente, favorecien- 
do asi la représentation y el razonamiento explicitas del conocimiento. Trataremos la 
robotica y su vision no como problemas con una définition independiente, sino como 
algo que ocurre para lograr los objetivos. Daremos importancia al entorno de las tareas 
al determinar el diseno apropiado de los agentes. 
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Nuestro objetivo principal es el de transmitir las ideas que han surgido durante los 
ültimos 50 anos de investigacion en IA y trabajos afines durante los dos ültimos mile- 
nios. Hemos intentado evitar una excesiva formalidad en la presentaciôn de estas ideas 
a la vez que hemos intentado cuidar la précision. Siempre que es necesario y adecuado, 
incluimos algoritmos en pseudo côdigo para concretar las ideas, lo que se describe en 
el Apéndice B. Las implementaciones en varios lenguajes de programaciôn estân dis¬ 
ponibles en el sitio Web de este libro, en la direcciôn de Internet aima.cs.berkeley.edu. 

Este libro se ha pensado principalmente para utilizarse en un curso de diplomatura 
o en una sérié de varios cursos. También se puede utilizar en un curso de licenciatura 
(quizâs acompanado de algunas de las fuentes primarias, como las que se sugieren en 
las notas bibliogrâficas). Debida a la extensa cobertura y a la gran cantidad de algorit¬ 
mos detallados, también es una herramienta ütil como manual de referencia primario para 
alumnos de licenciatura superior y profesionales que deseen abarcar mas alla de su pro- 
pio subcampo. El ünico prerrequisito es famiha.riza.rse con los conceptos bâsicos de la 
ciencia de la informâtica (algoritmos, estructuras de datos, complejidad) a un nivel de 
aprendizaje de segundo ano. El câlculo de Freshman es ütil para entender las redes neu¬ 
rales y el aprendizaje estadistico en detalle. En el Apéndice A se ofrecen los fundamentos 
matemâticos necesarios. 


Vision general del libro 


El libro se divide en ocho partes. La Parte I, Inteligencia Artifîcial, ofrece una vision 
de la empresa de IA basado en la idea de los agentes inteligentes, sistemas que pueden 
decidir qué hacer y enfonces actutar. La Parte II, Resoluciôn de Problemas, se concentra 
en los métodos para decidir qué hacer cuando se planean varios pasos con antelacion, 
por ejemplo, navegar para cruzar un pais o jugar al ajedrez. La Parte III, Conocimien- 
to y Razonamiento, abarca las formas de representar el conocimiento sobre el mundo, 
es decir, como funciona, qué aspecto tiene actualmente y como podria actuar, y estudia 
también como razonar de forma lôgica con ese conocimiento. La Parte IV, Planifïca- 
ciôn, abarca como utilizar esos métodos de razonamiento para decidir qué hacer, parti- 
cularmente construyendo planes. La Parte V, Conocimiento y Razonamiento Incier- 
tos, se asemeja a las Partes III y IV, pero se concentra en el razonamiento y en la toma 
de decisiones en presencia de la incertidumbre del mundo, la forma en que se podria en- 
frentar, por ejemplo, a un sistema de tratamiento y diagnosis médicos. 

Las Partes II y V describen esa parte del agente inteligente responsable de alcanzar 
las decisiones. La Parte IV, Aprendizaje, describe los métodos para generar el conoci¬ 
miento requerido por los componentes de la toma de decisiones. La Parte VII, Comu- 
nicaciôn, Percepciôn y Actuaciôn, describe las formas en que un agente inteligente pue¬ 
de percibir su entorno para saber lo que esta ocurriendo, tanto si es mediante la vision, 
el tacto, el oido o el entendimiento del idioma; también describe como se pueden trans- 
formar los planes en acciones reales, o bien en movimientos de un robot, o bien en or- 
denes del lenguaje natural. Finalmente, la Parte VIII, Conclusiones, analiza el pasado 
y el futuro de la IA y sus repercusiones filosôficas y éticas. 
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Cambios de la primera edicion 


Desde que en 1995 se publicô la primera edicion, la IA ha sufrido muchos cambios, por 
lo tanto esta edicion también ha sufrido muchos cambios. Se han vuelto a escribir todos 
los capitulos elocuentemente para reflejar los ültimos trabajos de este campo, reinter- 
pretar los trabajos anteriores para que haya mayor coherencia con los actuales y mejo- 
rar la direccion pedagôgica de las ideas. Los seguidores de la IA deberfan estar alenta- 
dos, ya que las técnicas actuales son mucho mas prâcticas que las del ano 1995; por 
ejemplo, los algoritmos de planificaciôn de la primera edicion podrian generar planes 
solo de unos cuantos pasos, mientras que los algoritmos de esta edicion superan los mi¬ 
les de pasos. En la deduccion probalistica se han visto mejoras similares de ôrdenes de 
magnitud, procesamiento de lenguajes y otros subcampos. A continuaciôn se muestran 
los cambios mas destacables de esta edicion: 

• En la Parte I hacemos un reconocimiento de las contribuciones histôricas a la 
teoria de contrôles, teoria de juegos, economia y neurociencia. Esto ayudarâ a 
sintonizar con una cobertura mas integrada de estas ideas en los siguientes ca¬ 
pitulos. 

• En la Parte II se estudian los algoritmos de büsqueda en linea, y se ha anadido un 
capitulo nuevo sobre la satisfacciôn de las limitaciones. Este ültimo proporciona 
una conexiôn natural con el material sobre la logica. 

• En la Parte III la logica proposicional, que en la primera edicion, se présenté como 
un peldano a la logica de primer orden, ahora se présenta como un lenguaje de re- 
presentaciôn ütil por propio derecho, con râpidos algoritmos de deduccion y di- 
senos de agentes basados en circuitos. Los capitulos sobre la logica de primer or¬ 
den se han reorganizado para presentar el material de forma mas clara, anadiendo 
el ejemplo del dominio de compras en Internet. 

• En la Parte IV incluimos los métodos de planificaciôn mas actuales, taies como 
Graphplan y la planificaciôn basada en la satisfabilidad, e incrementamos la co¬ 
bertura de la planificaciôn temporal, planificaciôn condicional, planificaciôn je- 
rârquica y planificaciôn multiagente. 

• En la Parte V hemos aumentado el material de redes Bayesianas con algoritmos 
nuevos, taies como la eliminaciôn de variables y el algoritmo Monte Carlo de ca- 
dena Markov; también hemos creado un capitulo nuevo sobre el razonamiento tem¬ 
poral incierto, abarcando los modelos ocultos de Markov, los filtras Kalman y las 
redes dinâmicas Bayesianas. Los procesos de decision de Markov se estudian en 
profundidad, anadiendo también secciones de teoria de juegos y disenos de me- 
canismos. 

• En la Parte VI combinamos trabajos de aprendizaje estadistico, simbôlico y neu¬ 
ral, y anadimos secciones para impulsar los algoritmos, el algoritmo EM, apren¬ 
dizaje basado en instancias, y métodos kernel «de nücleo» (soporte a mâquinas 
vectoriales). 

• En la Parte VII el estudio del procesamiento de lenguajes anade secciones sobre 
el procesamiento del discurso y la inducciôn gramatical, asi como un capitulo so- 
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bre los modelos de lenguaje probalistico, con aplicaciones en la recuperaciôn de 
informacion y en la traduccion automâtica. El estudio de la robotica enfatiza la in- 
tegracion de datos inciertos de sensores, y el capitulo sobre la vision actualiza el 
material sobre el reconocimiento de objetos. 

• En la Parte VIII introducimos una secciôn sobre las repercusiones éticas de la IA. 


Utilizacion del libro 




27 capitulos componen la totalidad del libro, que a su vez estân compuestos por sesio- 
nes para clases que pueden durar una semana, por tanto para completar el libro se pue- 
den necesitar hasta dos semestres. Alternativamente, se puede adaptar un curso de for¬ 
ma que se adecue a los intereses del instructor o del alumno. Si se utiliza el libro 
compléta, servira como soporte para cursos tanto si son reducidos, de introducciôn, para 
diplomaturas o para licenciados e ingenieros, de especializacion, en temas avanzados. 
En la pagina Web aima.cs.berkeley.edu, se ofrecen programas de muestra recopilados 
de mas de 600 escuelas y facultades, ademâs de sugerencias que ayudarân a encontrar 
la secuencia mas adecuada para sus necesidades. 

Se han incluido 385 ejercicios que requieren una buena programaciôn, y se han mar- 
cado con el icono de un teclado. Estos ejercicios se pueden resolver utilizando el repo- 
sitorio de codigos que se encuentra en la pagina Web, aima.cs.berkeley.edu. Algunos de 
ellos son tan grandes que se pueden considerar proyectos de fin de trimestre. Algunos 
ejercicios requieren consultar otros libres de texto para investigar y se han marcado con 
el icono de un libro. 

Los puntos importantes también se han marcado con un icono que indica puntos im¬ 
portantes. Hemos incluido un indice extenso de 10.000 elementos que facilitan la utili¬ 
zacion del libro. Ademâs, siempre que aparece un término nuevo, también se destaca 
en el margen. 


Utilizacion de la pagina Web 


En la pagina Web se puede encontrar: 

• implementaciones de los algoritmos del libro en diferentes lenguajes de progra- 
macion, 

• una relacion de aproximadamente 600 universidades y centres, que han utilizado 
este libro, muchos de ellos con enlaces a los materiales de cursos en la red, 

• una relacion de unos 800 enlaces a sitios Web con contenido ütil sobre la IA, 

• una lista de todos los capitulos, uno a uno, material y enlaces complementarios, 

• instrucciones sobre como unirse a un grupo de debate sobre el libro, 

• instrucciones sobre como contactar con los autores mediante preguntas y comen- 
tarios, 
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• instrucciones sobre cômo informar de los errores del libro, en el caso probable de 
que existieran, y 

• copias de las figuras del libro, junto con diapositivas y otro tipo de material para 
profesores. 
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1 Introducciôn 



Donde se intentarâ explicar por qué se considéra a la inteligencia artificial un tenta 
digno de estudio y donde se intentarâ definirla con exactitud; es esta tarea muy 
recomendable antes de emprender de Ileno su estudio. 


Los hombres se han denominado a si mismos como Homo sapiens (hombre sabio) por- 
que nuestras capacidades mentales son muy importantes para nosotros. Durante miles 
de anos, hemos tratado de entender como pensamos', es decir, entender como un sim¬ 
ple punado de materia puede percibir, entender, predecir y manipular un mundo mu- 


cho mas grande y complicado que ella misma. El campo de la inteligencia artificial, 


INTELIGENCIA 

ARTIFICIAL 


o IA, va mas alla: no solo intenta comprender, sino que también se esfuerza en cons- 
truir entidades inteligentes. 

La IA es una de las ciencias mas recientes. El trabajo comenzo poco después de la 
Segunda Guerra Mundial, y el nombre se acuno en 1956. La IA se cita, junto a la bio- 
logia molecular, como un campo en el que a la mayoria de cientificos de otras discipli¬ 
nas «les gustaria trabajar». Un estudiante de ciencias fïsicas puede pensar razonablemente 
que todas las buenas ideas han sido ya propuestas por Galileo, Newton, Einstein y otros. 
Por el contrario, la IA aün tiene flecos sin cerrar en los que podrian trabajar varios Eins- 
teins a tiempo completo. 

La IA abarca en la actualidad una gran variedad de subcampos, que van desde are¬ 
as de proposito general, como el aprendizaje y la percepcion, a otras mas especificas como 
el ajedrez, la demostracion de teoremas matemâticos, la escritura de poesfa y el diag- 
nostico de enfermedades. La IA sintetiza y automatiza tareas intelectuales y es, por lo 
tanto, potencialmente relevante para cualquier âmbito de la actividad intelectual huma- 
na. En este sentido, es un campo genuinamente universal. 
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INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


1.1 iQué es la IA? 


RACIONALIDAD 


Hemos proclamado que la IA es excitante, pero no hemos dicho qué es. La Figura 1.1 
présenta definiciones de inteligencia artificial extraidas de ocho libros de texto. Las que 
aparecen en la parte superior se refieren a procesos mentales y al razonamiento, mien- 
tras que las de la parte inferior aluden a la conducta. Las definiciones de la izquierda 
miden el éxito en términos de la fidelidad en la forma de actuar de los humanos, mien- 
tras que las de la derecha toman como referencia un concepto idéal de inteligencia, que 
llamaremos racionalidad. Un sistema es racional si hace «lo correcto», en funcion de 
su conocimiento. 

A lo largo de la historia se han seguido los cuatro enfoques mencionados. Como es 
de esperar, existe un enfrentamiento entre los enfoques centrados en los humanos y los 
centrados en torno a la racionalidad 1 . El enfoque centrado en el comportamiento huma- 
no debe ser una ciencia empirica, que incluya hipotesis y confirmaciones mediante ex- 
perimentos. El enfoque racional implica una combinaciôn de matemâticas e ingenieria. 
Cada grupo al mismo tiempo ha ignorado y ha ayudado al otro. A continuacion revisa- 
remos cada uno de los cuatro enfoques con mas detalle. 


Sistemas que piensan como humanos 

Sistemas que piensan racionalmente 

«El nuevo y excitante esfuerzo de hacer que los 
computadores piensen... mâquinas con mentes, en 
el mas amplio sentido literal». (Haugeland, 1985) 

«[La automatizaciôn de] actividades que vincu- 
lamos con procesos de pensamiento humano, ac¬ 
tividades como la toma de decisiones, resoluciôn 
de problemas, aprendizaje...» (Bellman, 1978) 

«El estudio de las facultades mentales median¬ 
te el uso de modelos computacionales». (Char- 
niak y McDermott, 1985) 

«El estudio de los câlculos que hacen posible 
percibir, razonar y actuar». (Winston, 1992) 

Sistemas que actuan como humanos 

Sistemas que actuan racionalmente 

«El arte de desarrollar mâquinas con capacidad 
para realizar funciones que cuando son realiza- 
das por personas requieren de inteligencia». 
(Kurzweil, 1990) 

«El estudio de como lograr que los computado¬ 
res realicen tareas que, por el momento, los hu¬ 
manos hacen mejor». (Rich y Knight, 1991) 

«La Inteligencia Computacional es el estudio 
del diseno de agentes inteligentes». (Poole et 
al., 1998) 

«IA... esta relacionada con conductas inteli¬ 
gentes en artefactos». (Nilsson, 1998) 

Figura 1.1 Algunas definiciones de inteligencia artificial, organizadas en cuatro categorias. 


1 Conviene aclarar, que al distinguir entre comportamiento humano y racional no se esta sugiriendo que los 
humanos son necesariamente «irracionales» en el sentido de «inestabilidad emocional» o «desequilibrio 
mental». Basta con damos cuenta de que no somos perfectos: no todos somos maestros de ajedrez, incluso 
aquellos que conocemos todas las réglas del ajedrez; y desafortunadamente, no todos obtenemos un sobre- 
saliente en un examen. Kahneman et al. (1982) ha elaborado un catâlogo con algunos de los errores que 
sistemâticamente cometen los humanos cuando razonan. 
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Comportamiento humano: el enfoque 
de la Prueba de Turing 

La Prueba de Turing, propuesta por Alan Turing (1950), se disefio para proporcionar 
una definicion operacional y satisfactoria de inteligencia. En vez de proporcionar una 
lista larga y quizâ controvertida de cualidades necesarias para obtener inteligencia arti- 
ficialmente, él sugirio una prueba basada en la incapacidad de diferenciar entre entida- 
des inteligentes indiscutibles y seres humanos. El computador supera la prueba si un eva- 
luador humano no es capaz de distinguir si las respuestas, a una sérié de preguntas 
planteadas, son de una persona o no. En el Capitulo 26 se comentan detalles de esta prue¬ 
ba y se discute si un computador que supera la prueba es realmente inteligente. Hoy por 
hoy, podemos decir que programar un computador para que supere la prueba requiere 
un trabajo considérable. El computador deberia poseer las siguientes capacidades: 

• Procesamiento de lenguaje natural que le permita comunicarse satisfactoriamente 
en inglés. 

• Representaciôn del conocimiento para almacenar lo que se conoce o siente. 

• Razonamiento automâtico para utilizar la informacion almacenada para res- 
ponder a preguntas y extraer nuevas conclusiones. 

• Aprendizaje automâtico para adaptarse a nuevas circunstancias y para detectar 
y extrapolar patrones. 

La Prueba de Turing évité deliberadamente la interaccion fi'sica directa entre el evalua- 
dor y el computador, dado que para medir la inteligencia es innecesario simular fisica- 
mente a una persona. Sin embargo, la llamada Pmeba Global de Turing incluye una se¬ 
rial de video que permite al evaluador valorar la capacidad de percepcion del evaluado, 
y también le da la oportunidad al evaluador de pasar objetos fisicos «a través de una ven- 
tanita». Para superar la Prueba Global de Turing el computador debe estar dotado de 

• Vision computacional para percibir objetos. 

• Robôtica para manipular y mover objetos. 

Estas seis disciplinas abarcan la mayor parte de la IA, y Turing merece ser reconocido 
por disefiar una pmeba que se conserva vigente después de 50 afios. Los investigadores 
del campo de la IA han dedicado poco esfuerzo a la evaluacion de sus sistemas con la 
Prueba de Turing, por creer que es mas importante el estudio de los principios en los que 
se basa la inteligencia que duplicar un ejemplar. La büsqueda de un ingenio que «volara 
artificialmente» tuvo éxito cuando los hermanos Wright, entre otros, dejaron de imitar a 
los pâjaros y comprendieron los principios de la aerodinâmica. Los textos de ingenieria 
aerodinâmica no definen el objetivo de su campo como la construccion de «mâquinas que 
vuelen como palomas de forma que puedan incluso confundir a otras palomas». 

Pensar como un humano: el enfoque 
del modelo cognitivo 

Para poder decir que un programa dado piensa como un humano, es necesario contar con 
un mecanismo para determinar como piensan los humanos. Es necesario penetrar en el 
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funcionamiento de las mentes humanas. Hay dos formas de hacerlo: mediante intros- 
pecciôn (intentando atrapar nuestros propios pensamientos conforme éstos van apare- 
ciendo) y mediante experimentos psicolôgicos. Una vez se cuente con una teoria lo 
suficientemente précisa sobre cômo trabaja la mente, se podrâ expresar esa teoria en la 
forma de un programa de computador. Si los datos de entrada/salida del programa y los 
tiempos de reacciôn son similares a los de un humano, existe la evidencia de que algu- 
nos de los mecanismos del programa se pueden comparar con los que utilizan los seres 
humanos. Por ejemplo, a Allen Newell y Herbert Simon, que desarrollaron el «Sistema 
de Resoluciôn General de Problemas» (SRGP) (Newell y Simon, 1961), no les bastô con 
que su programa resolviera correctamente los problemas propuestos. Lo que les intere- 
saba era seguir la pista de las etapas del proceso de razonamiento y compararlas con las 
seguidas por humanos a los que se les enfrentô a los mismos problemas. En el campo 
interdisciplinario de la ciencia cognitiva convergen modelos computacionales de IA y 
técnicas experimentales de psicologia intentando elaborar teorias précisas y verificables 
sobre el funcionamiento de la mente humana. 

La ciencia cognitiva es un campo fascinante, merecedora de una enciclopedia de- 
dicada a ella (Wilson y Keil, 1999). En este libro no se intenta describir qué se conoce 
de la cogniciôn humana. Ocasionalmente se hacen comentarios acerca de similitudes 
o diferencias entre técnicas de IA y cogniciôn humana. La auténtica ciencia cognitiva 
se fundamenta necesariamente en la investigaciôn experimental en humanos y anima¬ 
les, y en esta obra se asume que el lector solo tiene acceso a un computador para expe- 
rimentar. 

En los comienzos de la IA habia confusion entre las distintas aproximaciones: un au- 
tor podria argumentai - que un algoritmo resolvia adecuadamente una tarea y que por tan¬ 
ta era un buen modelo de representaciôn humana, o viceversa. Los autores actuales ha¬ 
cen diferencia entre las dos reivindicaciones; esta distinciôn ha permitido que ambas 
disciplinas, IA y ciencia cognitiva, se desarrollen mas râpidamente. Los dos campos con- 
tinüan alimentândose entre si, especialmente en las areas de la vision y el lenguaje na- 
tural. En particular, el campo de la vision ha avanzado recientemente con la ayuda de 
una propuesta integrada que tiene en cuenta la evidencia neurofisiolôgica y los mode¬ 
los computacionales. 


Pensamiento racional: el enfoque 
de las «leyes del pensamiento» 

El filôsofo griego Aristôteles fue uno de los primeras en intentar codificar la «manera 
correcta de pensar», es decir, un proceso de razonamiento irréfutable. Sus silogismos son 
esquemas de estructuras de argumentaciôn mediante las que siempre se llega a conclu¬ 
sions correctas si se parte de premisas correctas (por ejemplo: «Socrates es un hombre; 
todos los hombres son mortales; por lo tanto Socrates es mortal»). Estas leyes de pen¬ 
samiento supuestamente gobiernan la manera de operar de la mente; su estudio fue el 
inicio de un campo llamado Iôgica. 

Estudiosos de la Iôgica desarrollaron, en el siglo xix, una notaciôn précisa para dé¬ 
finir sentencias sobre todo tipo de elementos del mundo y especificar relaciones entre 
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ellos (compârese esto con la notaciôn aritmética comün, que prâcticamente solo sirve 
para representar afirmaciones acerca de la igualdad y desigualdad entre nümeros). Ya 
en 1965 existian programas que, en principio, resolvian cualquier problema resoluble 
descrito en notaciôn lôgica 2 . La llamada tradiciôn logista dentro del campo de la inteli- 
gencia artificial trata de construir sistemas inteligentes a partir de estos programas. 

Este enfoque présenta dos obstâculos. No es fâcil transformar conocimiento infor¬ 
mai y expresario en los términos formales que requieren de notaciôn lôgica, particular- 
mente cuando el conocimiento que se tiene es inferior al 100 por 100. En segundo lu- 
gar, hay una gran diferencia entre poder resolver un problema «en principio» y hacerlo 
en la prâctica. Incluso problemas con apenas una docena de datos pueden agotar los re- 
cursos computacionales de cualquier computador a menos que cuente con alguna directiva 
sobre los pasos de razonamiento que hay que llevar a cabo primero. Aunque los dos obs¬ 
tâculos anteriores estân présentes en todo intento de construir sistemas de razonamien¬ 
to computacional, surgieron por primera vez en la tradiciôn lôgica. 


Actuar de forma racional: el enfoque del agente racional 

Un agente es algo que razona (agente viene del latin agere, hacer). Pero de los agentes 
informâticos se espera que tengan otros atributos que los distingan de los «programas» 
convencionales, como que estén dotados de contrôles autônomos, que perciban su en- 
torno, que persistan durante un perfodo de tiempo prolongado, que se adapten a los cam- 
bios, y que sean capaces de alcanzar objetivos diferentes. Un agente racional es aquel 
que actüa con la intenciôn de alcanzar el mejor resultado o, cuando hay incertidumbre, 
el mejor resultado esperado. 

En el caso del enfoque de la IA segün las «leyes del pensamiento», todo el énfasis 
se pone en hacer inferencias correctas. La obtenciôn de estas inferencias correctas pue- 
de, a veces, formar parte de lo que se considéra un agente racional, ya que una manera 
racional de actuar es llegar a la conclusion lôgica de que si una acciôn dada permite al¬ 
canzar un objetivo, hay que llevar a cabo dicha acciôn. Sin embargo, el efectuar una in- 
ferencia correcta no dépende siempre de la racionalidad, ya que existen situaciones para 
las que no hay nada correcto que hacer y en las que hay que tomar una decision. Exis¬ 
ten también formas de actuar racionalmente que no implican realizar inferencias. Por 
ejemplo, el retirar la mano de una estufa caliente es un acto reflejo mucho mas eficien- 
te que una respuesta lenta llevada a cabo tras una deliberaciôn cuidadosa. 

Todas la habilidades que se necesitan en la Pmeba de Turing deben permitir em- 
prender acciones racionales. Por lo tanto, es necesario contar con la capacidad para re¬ 
presentar el conocimiento y razonar basândonos en él, porque ello permitirâ alcanzar de- 
cisiones correctas en una amplia gama de situaciones. Es necesario ser capaz de generar 
sentencias comprensibles en lenguaje natural, ya que el enunciado de taies oraciones per¬ 
mite a los agentes desenvolverse en una sociedad compleja. El aprendizaje no se lleva 
a cabo por erudiciôn exclusivamente, sino que profundizar en el conocimiento de como 
funciona el mundo facilita la concepciôn de estrategias mejores para manejarse en él. 


2 Si no se encuentra una soluciôn, el programa nunca debe parar de buscarla. 
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RACIONALIDAD 

LIMITADA 


La percepciôn visual es necesaria no solo porque ver es divertido, sino porque es nece- 
saria para poder tener una idea mejor de lo que una accion puede llegar a representar, 
por ejemplo, el ver un delicioso bocadillo contribuirâ a que nos acerquemos a él. 

Por esta razon, el estudiar la IA desde el enfoque del diseno de un agente racional 
ofrece al menos dos ventajas. La primera es mas general que el enfoque que proporcio- 
nan las «leyes del pensamiento», dado que el efectuar inferencias correctas es solo uno 
de los mecanismos existentes para garantizar la racionalidad. La segunda es mas afin a 
la forma en la que se ha producido el avance cientifico que los enfoques basados en la 
conducta o pensamiento humano, porque la norma de la racionalidad esta claramente de- 
finida y es de aplicacion general. Por el contrario, la conducta humana se adapta bien a 
un entorno especlfico, y en parte, es producto de un proceso evolutivo complejo, en gran 
medida desconocido, que aün esta lejos de llevarnos a la perfeccion. Por tanto, esta obra 
se centrarâ en los principios generales que rigen a los agentes racionales y en los 
elementos necesarios para construirlos. Mas adelante quedarâ patente que a pesar de la 
aparente facilidad con la que se puede describir un problema, cuando se intenta resol- 
ver surgen una enorme variedad de cuestiones. El Capitulo 2 révisa algunos de estos 
aspectos con mas detalle. 

Un elemento importante a tener en cuenta es el siguiente: mas bien pronto que tar¬ 
de se observarâ como obtener una racionalidad perfecta (hacer siempre lo correcto) no 
es posible en entornos complejos. La demanda computacional que esto implica es de- 
masiado grande. En la mayor parte de esta obra se adoptarâ la hipotesis de trabajo de 
que la racionalidad perfecta es un buen punto de partida para el anâlisis. Lo cual sim- 
plifica el problema y proporciona el escenario base adecuado sobre el que se asientan 
los cimientos de este campo. Los Capitulos 6 y 17 se centran explicitamente en el tema 
de la racionalidad limitada (actuar adecuadamente cuando no se cuenta con el tiempo 
suficiente para efectuar todos los câlculos que serfan deseables). 


1.2 Los fundamentos de la inteligencia artifîcial 


Esta secciôn présenta una breve historia de las disciplinas que han contribuido con 
ideas, puntos de vista y técnicas al desarrollo de la IA. Como toda révision histôrica, en 
este caso se centra en un pequeno nümero de personas, eventos e ideas e ignora otras 
que también fueron importantes. La historia se organiza en torno a una sérié de cues¬ 
tiones, dejando claro que no se quiere dar la impresion de que estas cuestiones son las 
ünicas por las que las disciplinas se han preocupado y que el objetivo ültimo de todas 
estas disciplinas era hacer avanzar la IA. 


Filosofïa (desde el ano 428 a.C. hasta el présente) 

• /Se pueden utilizar réglas formales para extraer conclusiones validas? 

• /Como se généra la inteligencia mental a partir de un cerebro ffsico? 

• /De donde viene el conocimiento? 

• /Como se pasa del conocimiento a la accion? 
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Aristoteles (384-322 a.C.) fue el primera en formular un conjunto preciso de leyes que 
gobernaban la parte racional de la inteligencia. El desarrollô un sistema informai para 
razonar adecuadamente con silogismos, que en principio permitla extraer conclusiones 
mecânicamente, a partir de premisas iniciales. Mucho después, Ramôn Lull (d. 1315) 
tuvo la idea de que el razonamiento ütil se podria obtener por medios artificiales. Sus 
«ideas» aparecen representadas en la portada de este manuscrite. Thomas Hobbes (1588- 
1679) propuso que el razonamiento era como la computacion numérica, de forma que 
«nosotros sumamos y restamos silenciosamente en nuestros pensamientos». La auto- 
matizaciôn de la computacion en si misma estaba en marcha; alrededor de 1500, Leo¬ 
nardo da Vinci (1452-1519) disenô, aunque no construyo, una calculadora mecânica; 
construcciones recientes han mostrado que su diseno era funcional. La primera mâqui- 
na calculadora conocida se construyo alrededor de 1623 por el cientffico alemân Wil¬ 
helm Schickard (1592-1635), aunque la Pascalina, construida en 1642 por Biaise Pas¬ 
cal (1623-1662), sea mas famosa. Pascal escribiô que «la mâquina aritmética produce 
efectos que parecen mas similares a los pensamientos que a las acciones animales». Gott- 
fried Wilhelm Leibniz (1646-1716) construyo un dispositivo mecânico con el objetivo 
de llevar a cabo operaciones sobre conceptos en lugar de sobre numéros, pero su cam- 
po de acciôn era muy limitado. 

Ahora que sabemos que un conjunto de réglas pueden describir la parte racional y 
formai de la mente, el siguiente paso es considerar la mente como un sistema fisico. René 
Descartes (1596-1650) proporciona la primera discusiôn clara sobre la distinciôn entre 
la mente y la materia y los problemas que surgen. Uno de los problemas de una con- 
cepciôn puramente fisica de la mente es que parece dejar poco margen de maniobra al 
libre albedrio: si el pensamiento esta totalmente gobemado por leyes fisicas, enfonces 
una piedra podria «decidir» caer en direcciôn al centro de la Tierra gracias a su libre al¬ 
bedrio. A pesar de ser denodado defensor de la capacidad de razonamiento. Descartes 
fue un defensor del dualismo. Sostenia que existe una parte de la mente (o del aima o 
del espiritu) que esta al margen de la naturaleza, exenta de la influencia de las leyes fi- 
sicas. Los animales, por el contrario, no poseen esta cualidad dual; a ellos se le podria 
concebir como si se tratasen de mâquinas. Una alternativa al dualismo es el materia- 
lismo, que considéra que las operaciones del cerebro realizadas de acuerdo a las leyes 
de la fisica constituyen la mente. El libre albedrio es simplemente la forma en la que la 
percepciôn de las opciones disponibles aparecen en el proceso de selecciôn. 

Dada una mente fisica que gestiona conocimiento, el siguiente problema es establecer 
las fuentes de este conocimiento. El movimiento empirico, iniciado con el Novum Or- 
ganum 3 , de Lrancis Bacon (1561-1626), se caracteriza por el aforismo de John Locke 
(1632-1704): «Nada existe en la mente que no haya pasado antes por los sentidos». Da¬ 
vid Hume (1711-1776) propuso en A Treatise ofHuman Nature (Hume, 1739) lo que 
actualmente se conoce como principio de inducciôn: las réglas generales se obtienen me- 
diante la exposiciôn a asociaciones repetidas entres sus elementos. Sobre la base de las 
propuestas de Ludwig Wittgenstein (1889-1951) y Bertrand Russell (1872-1970), el 
famoso Circulo de Viena, liderado por Rudolf Carnap (1891-1970), desarrollô la doc- 
trina del positivismo lôgico. Esa doctrina sostiene que todo el conocimiento se puede 


3 Una actualizacion del Organon, o instrumento de pensamiento, de Aristoteles. 
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caracterizar mediante teorias lôgicas relacionadas, en ültima instancia, con sentencias 
de observation que corresponden a estimulos sensoriales 4 . La teori'a de la confirma- 
ciôn de Carnap y Cari Hempel (1905-1997) intenta explicar cômo el conocimiento se 
obtiene a partir de la experiencia. El libro de Carnap, The Logical Structure ofthe World 
(1928), define un procedimiento computacional cxpifcito para la extraction de conoci¬ 
miento a partir de experiencias primarias. Fue posiblemente la primera teoria en mos- 
trar la mente como un proceso computacional. 

El ültimo elemento en esta discusiôn filosofica sobre la mente es la relaciôn que exis¬ 
te entre conocimiento y action. Este asunto es vital para la IA, ya que la inteligencia re¬ 
quière tanto accion como razonamiento. Mas aün, simplemente con comprender cômo se 
justifican determinadas acciones se puede llegar a saber cômo construir un agente cuyas 
acciones sean justificables (o racionales). Aristôteles argumenta que las acciones se pue- 
den justificar por la conexiôn lôgica entre los objetivos y el conocimiento de los efectos de 
las acciones (la ültima parte de este extracto también aparece en la portada de este libro): 

/.Cômo es que el pensamiento viene acompanado en algunos casos de acciones y en otros 
no?, /en algunos casos por movimiento y en otros no? Parece como si la misma cosa 
sucediera tanto si razonâramos o hiciéramos inferencias sobre objetos que no cambian; 
pero en este caso el fin es una proposition especulativa... mientras la conclusion résul¬ 
tante de las dos premisas es una accion... Yo necesito abrigarme; una manta abriga. Yo 
necesito una manta. Qué necesito, qué debo hacer; necesito una manta. Necesito hacer 
una manta. Y la conclusion, «Yo tengo que hacer una manta», es una accion. (Nussbaum, 
1978, p. 40) 

En Nicomachean Ethics (Libro III. 3,1112b), Aristôteles continüa trabajando en este 
tema, sugiriendo un algoritmo: 

Nosotros no reflexionamos sobre los fines, sino sobre los medios. Un médico no refle- 
xiona sobre si debe curar, ni un orador sobre si debe persuadir... Ellos asumen el fin y 
consideran como y con qué medios se obtienen, y si résulta fâcil y es por tanto produc¬ 
tive; mientras que si solo se puede alcanzar por un medio se tiene en considération cômo 
se alcanzarâ por este y por qué medios se obtendrâ éste, hasta que se llegue a la causa 
primera..., y lo ültimo en el orden del anâlisis parece ser lo primera en el orden de los 
acontecimientos. Y si se llega a un estado imposible, se abandona la büsqueda, como por 
ejemplo si se necesita dinero y no se puede conseguir; pero si hay una posibilidad se in- 
tentarâ. 

El algoritmo de Aristôteles se implementô 2.300 anos mas tarde por Newell y Si¬ 
mon con la ayuda de su programa SRGP. El cual se conoce como sistema de planifica¬ 
tion regresivo (véase el Capitulo 11). 

El anâlisis basado en objetivos es ütil, pero no indica qué hacer cuando varias ac¬ 
ciones nos llevan a la consecuciôn del objetivo, o cuando ninguna action facilita su com¬ 
pléta consecuciôn. Antoine Arnauld (1612-1694) describiô correctamente una forma 
cuantitativa para decidir qué action llevar a cabo en un caso como este (véase el Capi¬ 
tulo 16). El libro Utilitarianism (Mill, 1863) de John Stuart Mill (1806-1873) propone 


4 En este contexto, es posible comprobar o rechazar toda aseveracion signifîcativa mediante el anâlisis del sig- 
nificado de las palabras o mediante la experimentaciôn. Dado que esto no es aplicable en la mayor parte del 
âmbito de la metafîsica, como era intenciôn, el positivismo lôgico se hizo impopular en algunos cfrculos. 
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la idea de un criterio de decision racional en todos los âmbitos de la actividad humana. 
En la siguiente seccion se explica una teoria de la decision mas formalmente. 

Matemâticas (aproximadamente desde 
el ano 800 al présente) 

• / ; Qué réglas formales son las adecuadas para obtener conclusiones validas? 

• Que se puede computar? 

• Coino razonamos con informacion incierta? 

Los filosofos delimitaron las ideas mas importantes de la IA, pero para pasar de ahi a 
una ciencia formai es necesario contar con una formulacion matemâtica en très areas fon¬ 
damentales : logica, computaciôn y probabilidad. 

El concepto de logica formai se remonta a los filosofos de la antigua Grecia (véase 
el Capitulo 7), pero su desarrollo matemâtico comenzô realmente con el trabajo de 
George Boole (1815-1864) que definiô la logica proposicional o Booleana (Boole, 
1847). En 1879, Gottlob Frege (1848-1925) extendio la logica de Boole para incluir ob- 
jetos y relaciones, y creo la logica de primer orden que se utiliza hoy como el sistema 
mas bâsico de representacion de conocimiento 5 . Alfred Tarski (1902-1983) introdujo una 
teoria de referencia que ensena como relacionar objetos de una logica con objetos del 
mundo real. El paso siguiente consistiô en définir los limites de lo que se podia hacer 
con la logica y la informâtica. 

Se piensa que el primer algoritmo no trivial es el algoritmo Euclideo para el câlcu- 
lo del mâximo comün divisor. El considerar los algoritmos como objetos en si mismos 
se remonta a la época de al-Khowarazmi, un matemâtico persa del siglo ix, con cuyos 
escritos también se introdujeron los numéros arâbigos y el âlgebra en Europa. Boole, entre 
otros, présenté algoritmos para llevar a cabo deducciones logicas y hacia el final del si¬ 
glo xix se llevaron a cabo numerosos esfuerzos para formalizar el razonamiento mate¬ 
mâtico general con la logica deductiva. En 1900, David Hilbert (1862-1943) présenté 
una lista de 23 problemas que acertadamente predijo ocuparian a los matemâticos 
durante todo ese siglo. En el ültimo de ellos se preguntaba si existe un algoritmo que 
permita determinar la validez de cualquier proposiciôn logica en la que aparezcan nü- 
meros naturales (el famoso Entscheidungsproblem, o problema de decision). Bâsicamente, 
lo que Hilbert se preguntaba es si hay limites fondamentales en la capacidad de los pro- 
cedimientos efectivos de demostraciôn. En 1930, Kurt Godel (1906-1978) demostro que 
existe un procedimiento eficiente para demostrar cualquier aseveracion verdadera en la 
logica de primer orden de Frege y Russell, sin embargo con la logica de primer orden 
no era posible capturar el principio de induccion matemâtica necesario para la caracte- 
rizacion de los numéros naturales. En 1931, demostro que, en efecto, existen limites 
reales. Mediante su teorema de incompletitud demostro que en cualquier lenguaje que 
tuviera la capacidad suficiente para expresar las propiedades de los nümeros naturales, 
existen aseveraciones verdaderas no decidible en el sentido de que no es posible deci- 
dir su validez mediante ningün algoritmo. 


5 La notacion para la logica de primer orden propuesta por Frege no se ha aceptado universalmente, por ra- 
zones que son aparentemente obvias cuando se observa ei ejemplo que aparece en la cubierta de este libro. 
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El resultado fundamental anterior se puede interpretar también como la indicaciôn 
de que existen algunas funciones de los nümeros enteros que no se pueden representar 
mediante un algoritmo, es decir no se pueden calcular. Lo anterior llevô a Alan Turing 
(1912-1954) a tratar de caracterizar exactamente aquellas funciones que si eran 
susceptibles de ser caracterizadas. La nociôn anterior es de hecho problemâtica hasta cier- 
to punto, porque no es posible dar una definicion formai a la nociôn de câlculo o pro- 
cedimiento efectivo. No obstante, la tesis de Church-Turing, que afirma que la mâqui- 
na de Turing (Turing, 1936) es capaz de calcular cualquier funciôn computable, goza de 
aceptaciôn generalizada ya que proporciona una definicion suficiente. Turing también 
demostrô que existen algunas funciones que no se pueden calcular mediante la mâqui- 
na de Turing. Por ejemplo, ninguna mâquina puede decidir en general si un programa 
dado producirâ una respuesta a partir de unas entradas, o si seguirâ calculando indefi- 
nidamente. 

Si bien ser no decidible ni computable son importantes para comprender el proceso 
del câlculo, la nociôn de intratabilidad tuvo repercusiones mas importantes. En térmi- 
nos generales se dice que un problema es intratable si el tiempo necesario para la reso- 
luciôn de casos particulares de dicho problema crece exponencialmente con el tamano 
de dichos casos. La diferencia entre crecimiento polinomial y exponencial de la com- 
plejidad se destacô por primera vez a mediados de los anos 60 (Cobham, 1964; Edmonds, 
1965). Es importante porque un crecimiento exponencial implica la imposibilidad de re- 
solver casos moderadamente grandes en un tiempo razonable. Por tanto, se debe optar 
por dividir el problema de la generaciôn de una conducta inteligente en subproblemas 
que sean tratables en vez de manejar problemas intratables. 

/ ; C6mo se puede reconocer un problema intratable? La teoria de la NP-completitud, 
propuesta por primera vez por Steven Cook (1971) y Richard Karp (1972) propone un 
método. Cook y Karp demostraron la existencia de grandes clases de problemas de ra- 
zonamiento y büsqueda combinatoria canônica que son NP complétas. Toda clase de pro¬ 
blema a la que la clase de problemas NP completos se pueda reducir sera seguramente 
intratable (aunque no se ha demostrado que los problemas NP completos son necesa- 
riamente intratables, la mayor parte de los teôricos as! lo creen). Estos resultados con- 
trastan con el optimismo con el que la prensa popular recibiô a los primeros computa- 
dores, «Supercerebros Electrônicos» que eran «;Mâs râpidos que Einstein! ». A pesar del 
râpido incremento en la velocidad de los computadores, los sistemas inteligentes se ca- 
racterizarân por el uso cuidadoso que hacen de los recursos. De manera sucinta, ;el mun- 
do es un ejemplo de problema extremadamente grande! Recientemente la IA ha ayuda- 
do a explicar por qué algunos ejemplos de problemas NP completos son difîciles de 
resolver y otros son faciles (Cheeseman et al., 1991). 

Ademâs de la lôgica y el câlculo, la tercera gran contribuciôn de las matemâticas a 
la IA es la teoria de la probabilidad. El italiano Gerolamo Cardano (1501-1576) fue el 
primero en proponer la idea de probabilidad, presentândola en términos de los resulta¬ 
dos de juegos de apuesta. La probabilidad se convirtiô pronto en parte imprescindible de 
las ciencias cuantitativas, ayudando en el tratamiento de mediciones con incertidumbre 
y de teorias incompletas. Pierre Fermât (1601-1665), Biaise Pascal (1623-1662), James 
Bernoulli (1654-1705), Pierre Laplace (1749-1827), entre otros, hicieron avanzar esta te¬ 
oria e introdujeron nuevos métodos estadisticos. Thomas Bayes (1702-1761) propuso una 





INTRODUCCIÔN 11 


TEORIA DE LA 
DECISION 


TEORIA DE JUEGOS 


INVESTIGACIÔN 

OPERATIVA 


régla para la actualizaciôn de probabilidades subjetivas a la luz de nuevas evidencias. La 
régla de Bayes y el area résultante llamado anâlisis Bayesiano conforman la base de las 
propuestas mas modernas que abordan el razonamiento incierto en sistemas de IA. 


Economfa (desde el ano 1776 hasta el présente) 

• / Corno se debe llevar a cabo el proceso de toma de decisiones para maximizar el 
rendimiento? 

• /Cômo se deben llevar a cabo acciones cuando otros no colaboren? 

• /Cômo se deben llevar a cabo acciones cuando los resultados se obtienen en un 
futuro lejano? 

La ciencia de la economfa comenzô en 1776, cuando el filosofo escocés Adam Smith 
(1723-1790) publicd An Inquiri into the Nature and Causes ofthe Wealth of Nations. Aun- 
que los antiguos griegos, entre otros, habfan hecho contribuciones al pensamiento eco- 
nômico, Smith fue el primero en tratarlo como una ciencia, utilizando la idea de que las 
economias pueden concebirse como un conjunto de agentes individuales que intentan 
maximizar su propio estado de bienestar econômico. La mayor parte de la gente créé que 
la economia solo se trata de dinero, pero los economistas dicen que ellos realmente es- 
tudian como la gente toma decisiones que les llevan a obtener los beneficios esperados. 
Léon Walras (1834-1910) formalizô el tratamiento matemâtico del «beneficio deseado» 
o utilidad, y fue posteriormente mejorado por Frank Ramsey ( 1931) y después por John 
von Neumann y Oskar Morgenstern en su libro The Tlieory ofGames and Economie Be- 
havior (1944). 

La teoria de la decision, que combina la teoria de la probabilidad con la teoria de 
la utilidad, proporciona un marco completo y formai para la toma de decisiones (eco- 
nômicas o de otra indole) realizadas bajo incertidumbre, esto es, en casos en los que las 
descripciones probabilisticas capturan adecuadamente la forma en la que se toman las 
decisiones en el entorno; lo cual es adecuado para «grandes» economias en las que cada 
agente no necesita prestar atencion a las acciones que lleven a cabo el resto de los agen¬ 
tes individualmente. Cuando se trata de «pequenas» economias, la situacion se aseme- 
ja mas a la de un juego: las acciones de un jugador pueden afectar signifieativamente a 
la utilidad de otro (tanto positiva como negativamente). Los desarrollos de von Neumann 
y Morgenstern a partir de la teoria de juegos ( véase también Luce y Raiffa, 1957) mos- 
traban el hecho sorprendente de que, en algunos juegos, un agente racional debia actuar 
de forma aleatoria o, al menos, aleatoria en apariencia con respecta a sus contrincantes. 

La gran mayoria de los economistas no se preocuparon de la tercera cuestiôn men- 
cionada anteriormente, es decir, como tomar decisiones racionales cuando los resultados 
de las acciones no son inmediatos y por el contrario se obtienen los resultados de las ac¬ 
ciones de forma secuencial. El campo de la investigaciôn operativa persigue este objeti- 
vo; dicho campo emergiô en la Segunda Guerra Mundial con los esfuerzos llevados a cabo 
en el Reino Unido en la optimizaciôn de instalaciones de radar, y posteriormente en apli- 
caciones civiles relacionadas con la toma de decisiones de direccion complejas. El traba- 
jo de Richard Bellman (1957) formaliza una clase de problemas de decision secuencial 
llamados procesos de decision de Markov, que se estudiarân en los Capitulos 17 y 21. 
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El trabajo en la economfa y la investigacion operativa ha contribuido en gran medi- 
da a la nociôn de agente racional que aqul se présenta, aunque durante muchos anos la 
investigacion en el campo de la IA se ha desarrollado por sendas separadas. Una razôn 
fue la complejidad aparente que trae consigo el tomar decisiones racionales. Herbert 
Simon (1916-2001), uno de los primeros en investigar en el campo de la IA, ganô el pre- 
mio Nobel en Economla en 1978 por su temprano trabajo, en el que mostrô que los mo- 
delos basados en satisfacciôn (que toman decisiones que son «suficientemente buenas», 
en vez de realizar câlculos laboriosos para alcanzar decisiones ôptimas) proporcionaban 
una descripciôn mejor del comportamiento humano real (Simon, 1947). En los anos 90, 
hubo un resurgimiento del interés en las técnicas de decision teôrica para sistemas ba¬ 
sados en agentes (Wellman, 1995). 

Neurociencia (desde el ano 1861 hasta el présente) 

• (,C6mo procesa informacion el cerebro? 

La Neurociencia es el estudio del sistema neurolôgico, y en especial del cerebro. La 
forma exacta en la que en un cerebro se généra el pensamiento es uno de los grandes 
misterios de la ciencia. Se ha observado durante miles de anos que el cerebro esta de al- 
guna manera involucrado en los procesos de pensamiento, ya que fuertes golpes en la 
cabeza pueden ocasionar minusvalia mental. También es ampliamente conocido que los 
cerebros humanos son de alguna manera diferentes; aproximadamente en el 335 a.C. 
Aristôteles escribiô, «de entre todos los animales el hombre tiene el cerebro mas gran¬ 
de en proporciôn a su tamano» 6 . Aunque, no fue hasta mediados del siglo xvm cuando 
se aceptô mayoritariamente que el cerebro es la base de la conciencia. Hasta este mo- 
mento, se pensaba que estaba localizado en el corazôn, el bazo y la glândula pineal. 

El estudio de Paul Broca (1824-1880) sobre la afasia (dificultad para hablar) en 
pacientes con el cerebro danado, en 1861, le dio fuerza a este campo y convenciô a la 
sociedad médica de la existencia de areas localizadas en el cerebro responsables de fun- 
ciones cognitivas especificas. En particular, mostrô que la producciôn del habla se 
localizaba en una parte del hemisferio izquierdo; hoy en dia conocida como el area de 
Broca 7 . En esta época ya se sabla que el cerebro estaba formado por células nerviosas o 
neuronas, pero no fue hasta 1873 cuando Camillo Golgi (1843-1926) desarrollô una téc- 
nica de coloraciôn que permitiô la observaciôn de neuronas individuales en el cerebro 
(véase la Figura 1.2). Santiago Ramôn y Cajal (1852-1934) utilizô esta técnica es sus 
estudios pioneros sobre la estmctura neuronal del cerebro 8 . 

En la actualidad se dispone de informacion sobre la relaciôn existente entre las are¬ 
as del cerebro y las partes del cuerpo humano que controlan o de las que reciben impulsos 


6 Desde entonces, se ha descubierto que algunas especies de delfines y ballenas tienen cerebros relativamente 
grandes. Ahora se piensa que el gran tamano de los cerebros humanos se debe en parte a la mejora reciente 
en su sistema de refrigeracion. 

7 Muchos citan a Alexander Hood (1824) como una fuente posiblemente anterior. 

8 Golgi insistiô en la creencia de que las funciones cerebrales se desarrollaron inicialmente en el medio con- 
tinuo en el que las neuronas estaban inmersas, mientras que Cajal propuso la «doctrina neuronal». Ambos 
compartieron el premio Nobel en 1906 pronunciando un discurso de aceptaciôn antagonico. 
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Figura 1.2 Partes de una célula nerviosa o neurona. Cada neurona contiene un cuerpo celular, o 
soma, que tiene un nücleo celular. Un numéro de fibras llamadas dendritas se ramifican a partir del 
cuerpo de la célula junto con una ünica fibra larga llamada axon. El axon se alarga considerable- 
mente, mucho mas que lo que se représenta en esta imagen. Normalmente miden un centimetro (100 
veces mas que el diâmetro del cuerpo de la célula), pero pueden alcanzar hasta un métro de longi- 
tud. Una neurona se conecta con entre 10 y 100.000 neuronas formando una marana llamada 
sinapsis. Las senales se propagan de neurona a neurona mediante una reaccion electroquimica com- 
plicada. Las senales controlan la actividad del cerebro a corto plazo, y permiten establecer cam- 
bios en la posicion y conectividad de las neuronas a largo plazo. Se piensa que estos mecanismos 
forman la base del aprendizaje del cerebro. La mayoria del procesamiento de informacion se lleva 
a cabo en la corteza del cerebro, la capa mâs externa de éste. La unidad de organizaciôn bâsica es 
una columna de tejido de aproximadamente 0,5 mm de diâmetro, con lo cual se amplia la profun- 
didad total de la corteza cérébral, que en el caso de los humanos es de cuatro mm. Una columna 
contiene aproximadamente 20.000 neuronas. 


sensoriales. Taies relaciones pueden cambiar de forma radical incluso en pocas sema- 
nas, y algunos animales parecen disponer de mültiples posibilidades. Mâs aün, no se tie¬ 
ne totalmente claro como algunas areas se pueden encargar de ciertas funciones que eran 
responsabilidad de areas danadas. No hay prâcticamente ninguna teoria que explique 
como se almacenan recuerdos individuales. 

Los estudios sobre la actividad de los cerebros intactos comenzo en 1929 con el des- 
cubrimiento del electroencefalograma (EEG) desarrollado por Hans Berger. El recien- 
te descubrimiento de las imâgenes de resonancia magnética funcional (IRMF) (Ogawa 
et al., 1990) esta proporcionando a los neurôlogos imâgenes detalladas de la actividad 
cérébral sin precedentes, permitiéndoles obtener medidas que se corresponden con pro- 
cesos cognitivos en desarrollo de manera muy interesante. Este campo estâ evolucionando 
gracias a los avances en los estudios en celdas individuales y su actividad neuronal. A 
pesar de estos avances, nos queda un largo camino para llegar a comprender como fun- 
cionan todos estos procesos cognitivos. 
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La conclusion verdaderamente increible es que una colecciôn de simples células pue- 
de llegar a generar razonamiento, acciôn, y conciencia o, dicho en otras palabras, los 
cerebros generan las inteligencias (Searle, 1992). La ünica teoria altemativa es el mis- 
ticismo: que nos dice que existe alguna esfera mistica en la que las mentes operan fue- 
ra del control de la ciencia fïsica. 

Cerebros y computadores digitales realizan tareas bastante diferentes y tienen pro- 
piedades distintas. La Figura 1.3 muestra cômo hay 1.000 veces mas neuronas en un ce- 
rebro humano medio que puertas logicas en la UCP de un computador estândar. La ley 
de Moore 9 predice que el nümero de puertas logicas de la UCP se igualarâ con el de neu¬ 
ronas del cerebro alrededor del ano 2020. Por supuesto, poco se puede inferir de esta pre- 
diccion; mas aün, la diferencia en la capacidad de almacenamiento es insignificante com- 
parada con las diferencias en la velocidad de intercambio y en paralelismo. Los circuitos 
de los computadores pueden ejecutar una instruccion en un nanosegundo, mientras que 
las neuronas son millones de veces mas lentas. Las neuronas y las sinapsis del cerebro 
estân activas simultâneamente, mientras que los computadores actuales tienen una o como 
mucho varias UCP. Por tanto, incluso sabiendo que un computador es un millôn de veces 
mas râpido en cuanto a su velocidad de intercambio, el cerebro acaba siendo 100.000 
veces mas râpido en lo que hace. 


Psicologia (desde el ano 1879 hasta el présente) 

• / ; C6mo piensan y actüan los humanos y los animales? 

La psicologia cientifica se iniciô con los trabajos del fïsico alemân Hermann von Helm- 
holtz (1821-1894), segün se referencia habitualmente, y su discipulo Wilhelm Wundt 
(1832-1920). Helmholtz aplicô el método cientifico al estudio de la vista humana, y su 
obra Handbook of Pliysiological Optics, todavia en nuestros dias, se considéra como «el 
tratado actual mas importante sobre la fïsica y la fisiologia de la vista humana» (Nalwa, 
1993, p. 15). En 1879, Wundt abriô el primer laboratorio de psicologia experimental en 



Computador 

Cerebro Humano 

Unidades computacionales 

1 UCP, 10 8 puertas 

10 11 neuronas 

Unidades de Almacenamiento 

10 10 bits RAM 

10 11 neuronas 


10 11 bits disco 

10 14 sinapsis 

Duracion de un ciclo 

10~ 9 sec 

10~ 3 sec 

Ancho de banda 

10 10 bits/sec 

10 14 bits/sec 

Memoria actual izacïon/sec 

10 9 

10 14 


Figura 1.3 Comparacion bâsica entre los recursos de cômputo generales de que disponen los com¬ 
putadores (circa 2003) y el cerebro. Las cifras correspondientes a los computadores se han incrementado 
en al menos un factor 10 desde la primera ediciôn de este libro, y se espera que suceda la mismo en 
esta década. Las cifras correspondientes al cerebro no han cambiado en los ültimos 10.000 anos. 


9 La ley de Moore dice que el nümero de transistores por pulgada cuadrada se duplica cada ano o ano y me¬ 
dio. La capacidad del cerebro humano se dobla aproximadamente cada dos o cuatro millones de anos. 
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la Universidad de Leipzig. Wundt puso mucho énfasis en la realizacion de experimen- 
tos controlados cuidadosamente en la que sus operarios realizaban tareas de percepcion 
o asociacion al tiempo que sometian a introspeccion sus procesos mentales. Los meti- 
culosos contrôles evolucionaron durante un largo periodo de tiempo hasta convertir la 
psicologia en una ciencia, pero la naturaleza subjetiva de los datos hizo poco probable 
que un investigador pudiera contradecir sus propias teorfas. Biologos, estudiando el com- 
portamiento humano, por el contrario, carecian de datos introspectivos y desarrollaron 
una metodologia objetiva, tal y como describe H. S. Jennings (1906) en su influyente 
trabajo Behavior ofthe Lower Organisms. El movimiento conductista, liderado por John 
Watson (1878-1958) aplicô este punto de vista a los humanos, rechazando cualquier te- 
oria en la que intervinieran procesos mentales, argumentando que la introspeccion no 
aportaba una evidencia fiable. Los conductistas insistieron en el estudio exclusivo de me- 
diciones objetivas de percepciones (o estîmulos) sobre animales y de las acciones ré¬ 
sultantes (o respuestas). Construcciones mentales como conocimientos, creencias, ob- 
jetivos y pasos en un razonamiento quedaron descartadas por ser consideradas «psicologia 
popular» no cientifica. El conductismo hizo muchos descubrimientos utilizando ratas y 
palomas, pero tuvo menos éxito en la comprensiôn de los seres humanos. Aün asi, su 
influencia en la psicologia fue notable (especialmente en Estados Unidos) desde apro- 
ximadamente 1920 hasta 1960. 

La conceptualizacion del cerebro como un dispositivo de procesamiento de infor- 
macion, caracteristica principal de la psicologia cognitiva, se remonta por lo menos a 
las obras de William James 10 (1842-1910). Helmholtz también pone énfasis en que la 
percepcion entrana cierto tipo de inferencia logica inconsciente. Este punto de vista cog- 
nitivo se vio eclipsado por el conductismo en Estados Unidos, pero en la Unidad de Psi¬ 
cologia Aplicada de Cambridge, dirigida por Frédéric Bartlett (1886-1969), los mode- 
los cognitivos emergieron con fuerza. La obra The Nature of Exploitation, de Kenneth 
Craik (1943), discipulo y sucesor de Bartlett, reestablece enérgicamente la legitimidad 
de términos «mentales» como creencias y objetivos, argumentando que son tan cienti- 
ficos como lo pueden ser la presion y la temperatura cuando se habla acerca de los ga- 
ses, a pesar de que éstos estén formados por moléculas que no tienen ni presion ni tem¬ 
peratura. Craik establece très elementos clave que hay que tener en cuenta para disenar 
un agente basado en conocimiento: (1) el estimulo deberâ ser traducido a una represen- 
taciôn interna, (2) esta representacion se debe manipular mediante procesos cognitivos 
para asi generar nuevas representaciones internas, y (3) éstas, a su vez, se traducirân de 
nuevo en acciones. Dejo muy claro por qué consideraba que estos eran los requisitos ido- 
neos para disenar un agente: 

Si el organismo tiene en su cabeza «un modelo a pequena escala» de la realidad extema 
y de todas sus posibles acciones, sera capaz de probar diversas opciones, decidir cuâl es 
la mejor, planificar su reaccion ante posibles situaciones futuras antes de que éstas sur- 
jan, emplear lo aprendido de experiencias pasadas en situaciones présentes y futuras, y 
en todo momento, reaccionar ante los imprevistos que acontezcan de manera satisfacto- 
ria, segura y mas competente (Craik, 1943). 


10 William James era hermano del novelista Henry James. Se comenta que Henry escribio novelas narrativas 
como si se tratara de psicologia y William escribio sobre psicologia como si se tratara de novelas narrativas. 
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Después de la muerte de Craik en un accidente de bicicleta en 1945, Donald Boadbent con¬ 
tinué su trabajo, y su libre Perception and Communication (1958) incluyé algunos de los 
primeros modelos de procesamiento de informacién del fenômeno psicolôgico. Mientras 
tanto, en Estados Unidos el desarrollo del modelo computacional llevo a la creaciôn del cam- 
ciencia cognitiva po de la ciencia cognitiva. Se puede decir que este campo comenzô en un simposio cele- 
brado en el MIT, en septiembre de 1956 (como se verâ a continuaciôn este evento tuvo lugar 
solo dos meses después de la conferencia en la que «nacio» la IA). En este simposio, George 
Miller présenté The Magic Number Seven, Noam Chomsky présenté Three Models of 
Language, y Allen Newell y Herbert Simon presentaron The Logic Theory Machine. Estos 
très artfculos influyentes mostraron cômo se podlan utilizar los modelos informâticos para 
modelar la psicologia de la memoria, el lenguaje y el pensamiento lôgico, respectivamen- 
te. Los psicôlogos comparten en la actualidad el punto de vista comün de que «la teorfa 
cognitiva debe ser como un programa de computador» (Anderson, 1980), o dicho de otra 
forma, debe describir un mecanismo de procesamiento de informacion detallado, lo cual 
lleva consigo la implementaciôn de algunas funciones cognitivas. 


Ingenierfa computacional (desde el ano 1940 
hasta el présente) 

• /Cômo se puede construir un computador eficiente? 

Para que la inteligencia artificial pueda llegar a ser una realidad se necesitan dos cosas: 
inteligencia y un artefacto. El computador ha sido el artefacto elegido. El computador 
electrônico digital moderno se inventé de manera independiente y casi simultânea por 
cientfficos en très pafses involucrados en la Segunda Guerra Mundial. El equipo de Alan 
Turing construyô, en 1940, el primer computador operacional de carâcter electromecâ- 
nico, llamado Heath Robinson 11 , con un ünico propôsito: descifrar mensajes alemanes. 
En 1943 el mismo grupo desarrollo el Colossus, una mâquina potente de propôsito ge¬ 
neral basada en vâlvulas de vaclo 12 . El primer computador operacional programable fue 
el Z-3, inventado por Konrad Zuse en Alemania, en 1941. Zuse también inventé los nu¬ 
méros de coma flotante y el primer lenguaje de programaciôn de alto nivel, Plankalkül. 
El primer computador electrônico, el ABC, fue creado por John Atanasoff junto a su dis- 
cfpulo Clifford Berry entre 1940 y 1942 en la Universidad Estatal de Iowa. Las investi- 
gaciones de Atanasoff recibieron poco apoyo y reconocimiento; el ENIAC, desarrolla- 
do en el marco de un proyecto militar secreto, en la Universidad de Pensilvania, por un 
equipo en el que trabajaban entre otros John Mauchly y John Eckert, puede considerar- 
se como el precursor de los computadores modernos. 

Desde mediados del siglo pasado, cada generaciôn de dispositivos hardware ha con- 
llevado un aumento en la velocidad de proceso y en la capacidad de almacenamiento, 


11 Heath Robinson fue un caricaturista famoso por sus dibujos, que representaban artefactos de uso diario, 
caprichosos y absurdamente complicados, por ejemplo, uno para untar mantequilla en el pan tostado. 

12 En la postguerra, Turing quiso utilizar estos computadores para investigar en el campo de la IA, por ejem¬ 
plo, desarrollando uno de los primeros programas para jugar a la ajedrez (Turing et al., 1953). El gobiemo 
britânico bloqueô sus esfuerzos. 
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asi como una réduction de precios. La potencia de los computadores se dobla cada 18 
meses aproximadamente y seguirâ a este ritmo durante una o dos décadas mas. Después, 
se necesitarâ ingenieria molecular y otras tecnologias novedosas. 

Por supuesto que antes de la apariciôn de los computadores ya habia dispositivos de 
câlculo. Las primeras mâquinas automâticas, que datan del siglo xvn, ya se menciona- 
ron en la pagina seis. La primera mâquina programable fue un telar, desarrollado en 1805 
por Joseph Marie Jacquard (1752-1834) que utilizaba tarjetas perforadas para almace- 
nar informaciôn sobre los patrones de los bordados. A mediados del siglo xix, Charles 
Babbage (1792-1871) disenô dos mâquinas, que no llegô a construir. La «Mâquina de 
Diferencias», que aparece en la portada de este manuscrito, se concibiô con la intenciôn 
de facilitar los câlculos de tablas matemâticas para proyectos cientificos y de ingenieria. 
Finalmente se construyo y se présenté en 1991 en el Museo de la Ciencia de Londres 
(Swade, 1993). La «Mâquina Analitica» de Babbage era mucho mâs ambiciosa: incluia 
memoria direccionable, programas almacenados y saltos condicionales; fue el primer 
artefacto dotado de los elementos necesarios para realizar una computation universal. 
Ada Lovelace, colega de Babbage e hija del poeta Lord Byron, fue seguramente la 
primera programadora (el lenguaje de programaciôn Ada se llama as! en honor a esta 
programadora). Ella escribio programas para la inacabada Mâquina Analitica e incluso 
especulô acerca de la posibilidad de que la mâquina jugara al ajedrez y compusiese 
müsica. 

La IA también tiene una deuda con la parte software de la informâtica que ha pro- 
porcionado los sistemas operativos, los lenguajes de programaciôn, y las herramientas 
necesarias para escribir programas modernos (y articulos sobre ellos). Sin embargo, en 
este ârea la deuda se ha saldado: la investigation en IA ha generado numerosas ideas no¬ 
vedosas de las que se ha beneficiado la informâtica en general, como por ejemplo el tiem- 
po compartido, los intérpretes imperativos, los computadores personales con interfaces 
grâficas y ratones, entornos de desarrollo râpido, listas enlazadas, administration auto- 
mâtica de memoria, y conceptos claves de la programaciôn simbôlica, funcional, dinâ- 
mica y orientada a objetos. 


Teorfa de control y cibernética (desde el ano 1948 
hasta el présente) 

• / ; Cômo pueden los artefactos operar bajo su propio control? 

Ktesibios de Alejandria (250 a.C.) construyo la primera mâquina auto controlada: un reloj 
de agua con un regulador que mantenia el flujo de agua circulando por él, con un ritmo 
constante y predecible. Esta invention cambiô la définition de lo que un artefacto po- 
dia hacer. Anteriormente, solamente seres vivos podian modificar su comportamiento 
como respuesta a cambios en su entorno. Otros ejemplos de sistemas de control auto re- 
gulables y retroalimentados son el motor de vapor, creado por James Watt (1736-1819), 
y el termostato, inventado por Comelis Drebbel (1572-1633), que también inventô el sub- 
marino. La teoria matemâtica de los sistemas con retroalimentaciôn estables se desarrollo 
en el siglo xix. 
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TEORIA DE CONTROL 


CIBERNÉTICA 


FUNCIÔN OBJETIVO 


La figura central del desarrollo de lo que ahora se llama la teori'a de control fue Nor¬ 
bert Wiener (1894-1964). Wiener fue un matemâtico brillante que trabajô en sistemas 
de control biolôgicos y mecânicos y en sus vinculos con la cognicion. De la misma for¬ 
ma que Craik (quien también utilizo sistemas de control como modelos psicologicos), 
Wiener y sus colegas Arturo Rosenblueth y Julian Bigelow desafiaron la ortodoxia con- 
ductista (Rosenblueth et al., 1943). Ellos veian el comportamiento determinista como 
algo emergente de un mecanismo regulador que intenta minimizar el «error» (la dife- 
rencia entre el estado présente y el estado objetivo). A finales de los anos 40, Wiener, 
junto a Warren McCulloch, Walter Pitts y John von Neumann, organizaron una sérié de 
conferencias en las que se exploraban los nuevos modelos cognitivos matemâticos y com- 
putacionales, e influyeron en muchos otros investigadores en el campo de las ciencias 
del comportamiento. El libre de Wiener, Cybernetics (1948), fue un bestseller y desve- 
16 al püblico las posibilidades de las mâquinas con inteligencia artificial. 

La teoria de control modema, especialmente la rama conocida como control optimo 
estocâstico, tiene como objetivo el diseno de sistemas que maximizan una funciôn ob¬ 
jetivo en el tiempo. Lo cual se asemeja ligeramente a nuestra vision de lo que es la IA: 
diseno de sistemas que se comportan de forma optima. / ; Por qué, enfonces, IA y teoria 
de control son dos campos diferentes, especialmente teniendo en cuenta la cercana re- 
lacion entre sus creadores? La respuesta esta en el gran acoplamiento existente entre las 
técnicas matemâticas con las que estaban familiarizados los investigadores y entre los 
conjuntos de problemas que se abordaban desde cada uno de los puntos de vista. El 
câlculo y el âlgebra matricial, herramientas de la teoria de control, se utilizaron en la 
definiciôn de sistemas que se podian describir mediante conjuntos fijos de variables 
continuas; mas aün, el anâlisis exacto es solo posible en sistemas lineales. La IA se fun- 
do en parte para escapar de las limitaciones matemâticas de la teoria de control en los 
anos 50. Las herramientas de inferencia logica y computacion permitieron a los inves¬ 
tigadores de IA afrontar problemas relacionados con el lenguaje, vision y planificacion, 
que estaban completamente fuera del punto de mira de la teoria de control. 

Lingüfstica (desde el ano 1957 hasta el présente) 

• (,Como esta relacionado el lenguaje con el pensamiento? 

En 1957, B. F. Skinner publico Verbal Behavior. La obra presentaba una vision exten- 
sa y detallada desde el enfoque conductista al aprendizaje del lenguaje, y estaba escrita 
por los expertos mas destacados de este campo. Curiosamente, una révision de este li¬ 
bre llegô a ser tan famosa como la obra misma, y provoco el casi total desinterés por el 
conductismo. El autor de la révision fue Noam Chomsky, quien acababa de publicar un 
libre sobre su propia teoria, Syntactic Structures. Chomsky mostro como la teoria con¬ 
ductista no abordaba el tema de la creatividad en el lenguaje: no explicaba como es posible 
que un nino sea capaz de entender y construir oraciones que nunca antes ha escuchado. 
La teoria de Chomsky (basada en modelos sintâcticos que se remontaban al lingüista 
indio Panini, aproximadamente 350 a.C.) si podia explicar lo anterior y, a diferencia 
de teorias anteriores, poseia el formalismo suficiente como para permitir su progra- 
maciôn. 
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LINGÜISTICA 

COMPUTACIONAL 


La lingüistica moderna y la IA «nacieron», al mismo tiempo y maduraron juntas, so- 
lapândose en un campo hibrido llamado lingüistica computacional o procesamiento 
del lenguaje natural. El problema del entendimiento del lenguaje se mostrô pronto mu- 
cho mas complejo de lo que se habia pensado en 1957. El entendimiento del lenguaje 
requiere la comprensiôn de la materia bajo estudio y de su contexto, y no solamente el 
entendimiento de la estructura de las sentencias. Lo cual puede parecer obvio, pero no 
lo fue para la mayoria de la comunidad investigadora hasta los anos 60. Gran parte de 
los primeras trabajos de investigaciôn en el area de la representaciôn del conocimien- 
to (el estudio de cômo representar el conocimiento de forma que el computador pueda 
razonar a partir de dicha representaciôn) estaban vinculados al lenguaje y a la büsque- 
da de informaciôn en el campo del lenguaje, y su base eran las investigaciones realiza- 
das durante décadas en el anâlisis filosôfico del lenguaje. 


1.3 Historia de la inteligencia artificial 


Una vez revisado el material bâsico estamos ya en condiciones de cubrir el desarrollo 
de la IA propiamente dicha. 


Génesis de la inteligencia artificial (1943-1955) 

Warren McCulloch y Walter Pitts (1943) han sido reconocidos como los autores del pri¬ 
mer trabajo de IA. Partieron de très fuentes: conocimientos sobre la fisiologia bâsica y 
funcionamiento de las neuronas en el cerebro, el anâlisis formai de la lôgica proposi- 
cional de Russell y Whitehead y la teoria de la computaciôn de Turing. Propusieron un 
modelo constituido por neuronas artificiales, en el que cada una de ellas se caracteriza- 
ba por estar «activada» o «desactivada»; la «activaciôn» se daba como respuesta a la es- 
timulaciôn producida por una cantidad suficiente de neuronas vecinas. El estado de una 
neurona se veia como «équivalente, de hecho, a una proposiciôn con unos estimulos ade- 
cuados». Mostraron, por ejemplo, que cualquier funciôn de cômputo podrfa calcularse 
mediante alguna red de neuronas interconectadas, y que todos los conectores lôgicos {and, 
or, not, etc.) se podrian implementar utilizando estructuras de red sencillas. McCulloch 
y Pitts también sugirieron que redes adecuadamente definidas podrian aprender. Donald 
Hebb (1949) propuso y demostrô una sencilla régla de actualizaciôn para modificar las 
intensidades de las conexiones entre neuronas. Su régla, ahora llamada de aprendiza- 
je Hebbiano o de Hebb, sigue vigente en la actualidad. 

Dos estudiantes graduados en el Departamento de Matemâticas de Princeton, Mar¬ 
vin Minsky y Dean Edmonds, construyeron el primer computador a partir de una red neu¬ 
ronal en 1951. El Snarc, como se llamô, utilizaba 3.000 vâlvulas de vacio y un meca- 
nismo de piloto automâtico obtenido de los desechos de un avion bombardero B-24 para 
simular una red con 40 neuronas. El comité encargado de evaluar el doctorado de Minsky 
veia con escepticismo el que este tipo de trabajo pudiera considerarse como matemâti- 
co, pero se dice que von Newmann dijo, «Si no lo es actualmente, algün dia lo sera». 
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Minsky posteriormente probô teoremas influyentes que mostraron las limitaciones de la 
investigaciôn con redes neuronales. 

Hay un numéro de trabajos iniciales que se pueden caracterizar como de IA, pero 
fue Alan Turing quien articulé primero una vision de la IA en su articulo Computing 
Machinery and Intelligence, en 1950. AM, introdujo la prueba de Turing, el aprendiza- 
je automâtico, los algoritmos genéricos y el aprendizaje por refuerzo. 


Nacimiento de la inteligencia artiflcial (1956) 

Princeton acogiô a otras de la figuras seneras de la IA, John McCarthy. Posteriormente 
a su graduaciôn, McCarthy se transladô al Dartmouth College, que se erigirfa en el lugar 
del nacimiento oficial de este campo. McCarthy convenciô a Minsky, Claude Shannon 
y Nathaniel Rochester para que le ayudaran a aumentar el interés de los investigadores 
americanos en la teoria de autômatas, las redes neuronales y el estudio de la inteligen¬ 
cia. Organizaron un taller con una duraciôn de dos meses en Darmouth en el verano de 
1956. Hubo diez asistentes en total, entre los que se incluian Trenchard More de Prin¬ 
ceton, Arthur Samuel de IBM, y Ray Solomonoff y Oliver Selfridge del MIT. 

Dos investigadores del Carnegie Tech 1 ', Allen Newell y Herbert Simon, acapararon 
la atenciôn. Si bien los demâs también tenian algunas ideas y, en algunos casos, pro- 
gramas para aplicaciones determinadas como el juego de damas, Newell y Simon con- 
taban y a con un programa de razonamiento, el Teorico Logico (TL), del que Simon 
afirmaba: «Hemos inventado un programa de computaciôn capaz de pensar de manera 
no numérica, con lo que ha quedado resuelto el venerable problema de la dualidad 
mente-cuerpo» 14 . Poco después del término del taller, el programa ya era capaz de de- 
mostrar gran parte de los teoremas del Capitulo 2 de Principia Matemâtica de Russell 
y Whitehead. Se dice que Russell se manifesté complacido cuando Simon le mostrô que 
la demostraciôn de un teorema que el programa habia generado era mas corta que la que 
aparecfa en Principia. Los editores de la revista Journal of Symbolic Logic resultaron 
menos impresionados y rechazaron un articulo cuyos autores eran Newell, Simon y el 
Teorico Logico (TL). 

El taller de Dartmouth no produjo ningün avance notable, pero puso en contacto a 
las figuras importantes de este campo. Durante los siguientes 20 anos, el campo estuvo 
dominado por estos personajes, asi como por sus estudiantes y colegas del MIT, CMU, 
Stanford e IBM. Quizâ lo ültimo que surgiô del taller fue el consenso en adoptar el nue- 
vo nombre propuesto por McCarthy para este campo: Inteligencia Artificial. Quizâ «ra- 
cionalidad computacional» hubiese sido mas adecuado, pero «IA» se ha mantenido. 

Revisando la propuesta del taller de Dartmouth (McCarthy et al., 1955), se puede 
apreciar por qué fue necesario para la IA convertirse en un campo separado. / ; Por qué 


13 Actualmente Universidad Carnegie Mellon (UCM). 

14 Newell y Simon también desarrollaron un lenguaje de procesamiento de listas, IPL, para poder escribir el 
TL. No disponfan de un compilador y lo tradujeron a côdigo mâquina a mano. Para evitar errores, trabaja- 
ron en paralelo, diciendo en voz alta numéros binarios, conforme escribîan cada instruction para asegurar- 
se de que ambos coincidfan. 
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no todo el trabajo hecho en el campo de la IA se ha realizado bajo el nombre de teoria 
de control, o investigation operativa, o teoria de la decision, que, después de todo, per- 
siguen objetivos similares a los de la IA? O, por qué no es la IA una rama de las ma- 
temâticas? La primera respuesta es que la IA desde el primer momento abarco la idea 
de duplicar facultades humanas como la creatividad, la auto-mejora y el uso del lenguaje. 
Ninguno de los otros campos tenian en cuenta esos temas. La segunda respuesta esta re- 
lacionada con la metodologla. La IA es el ünico de estos campos que es claramente una 
rama de la informâtica (aunque la investigacion operativa comparte el énfasis en la si¬ 
mulation por computador), ademâs la IA es el ünico campo que persigue la construc¬ 
tion de mâquinas que funcionen automâticamente en medios complejos y cambiantes. 


Entusiasmo inicial, grandes esperanzas (1952-1969) 


SISTEMA DE 
SiMBOLOS FI'SICOS 


Los primeras anos de la IA estuvieron llenos de éxitos (aunque con ciertas limitaciones). 
Teniendo en cuenta lo primitivo de los computadores y las herramientas de programa- 
cion de aquella época, y el hecho de que solo unos pocos anos antes, a los computado¬ 
res se les consideraba como artefactos que podian realizar trabajos aritméticos y nada 
mas, résulté sorprendente que un computador hiciese algo remotamente inteligente. La 
comunidad cientifica, en su mayoria, prefirio creer que «una mâquina nunca podria ha- 
cer tareas» (véase el Capitulo 26 donde aparece una extensa lista de tareas recopilada 
por Turing). Naturalmente, los investigadores de IA responderian demostrando la reali- 
zacion de una tarea tras otra. John McCarthy se refiere a esta época como la era de « jMira, 
marna, ahora sin manos!». 

Al temprano éxito de Newell y Simon siguio el del sistema de résolution general 
de problemas, o SRGP. A diferencia del Teorico Logico, desde un principio este pro- 
grama se diseno para que imitara protocolos de résolution de problemas de los seres 
humanos. Dentro del limitado numéro de puzles que podia manejar, résulté que la se- 
cuencia en la que el programa consideraba que los subobjetivos y las posibles acciones 
eran semejantes a la manera en que los seres humanos abordaban los mismos proble¬ 
mas. Es decir, el SRGP posiblemente fue el primer programa que incorporé el enfoque 
de «pensar como un ser humano». El éxito del SRGP y de los programas que le siguieron, 
como los modelos de cogniciôn, llevaron a Newell y Simon (1976) a formular la famosa 
hipotesis del sistema de simbolos fisicos, que afirma que «un sistema de simbolos fi- 
sicos tiene los medios suficientes y necesarios para generar una acciôn inteligente». Lo 
que ellos querian decir es que cualquier sistema (humano o mâquina) que exhibiese in- 
teligencia deberia operar manipulando estructuras de datos compuestas por simbolos. 
Posteriormente se verâ que esta hipotesis se ha modificado atendiendo a distintos pun- 
tos de vista. 

En IBM, Nathaniel Rochester y sus colegas desarrollaron algunos de los primeras 
programas de IA. Herbert Gelernter (1959) constrayo el demostrador de teoremas de ge- 
ometria (DTG), el cual era capaz de probar teoremas que muchos estudiantes de mate- 
mâticas podian encontrar muy complejos de resolver. A comienzos 1952, Arthur Samuel 
escribio una sérié de programas para el juego de las damas que eventualmente apren- 
dieron a jugar hasta alcanzar un nivel équivalente al de un amateur. De paso, écho por 
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tierra la idea de que los computadores solo pueden hacer lo que se les dice: su progra- 
ma pronto aprendiô a jugar mejor que su creador. El programa se présenté en la télévi¬ 
sion en febrero de 1956 y causé una gran impresién. Como Turing, Samuel ténia difi- 
cultades para obtener el tiempo de cômputo. Trabajaba por las noches y utilizaba 
mâquinas que aün estaban en periodo de prueba en la planta de fabricaciôn de IBM. El 
Capitulo 6 trata el tema de los juegos, y en el Capitulo 21 se describe con detalle las téc- 
nicas de aprendizaje utilizadas por Samuel. 

John McCarthy se trasladô de Darmouth al MIT, donde realizô très contribuciones cru¬ 
ciales en un ano histôrico: 1958. En el Laboratorio de IA del MIT Mémo Nümero 1, 
McCarthy definiô el lenguaje de alto nivel Lisp, que se convertiria en el lenguaje de pro- 
gramacién dominante en la IA. Lisp es el segundo lenguaje de programaciôn mas antiguo 
que se utiliza en la actualidad, ya que apareciô un ano después de FORTRAN. Con Lisp, 
McCarthy ténia la herramienta que necesitaba, pero el acceso a los escasos y costosos re- 
cursos de cômputo aün era un problema serio. Para solucionarlo, él, junto a otros miem- 
bros del MIT, inventaron el tiempo compartido. También, en 1958, McCarthy publicô un 
articulo titulado Programs with Common Sense, en el que describia el Generador de Con- 
sejos, un programa hipotético que podria considerarse como el primer sistema de IA 
completo. Al igual que el Teôrico Lôgico y el Demostrador de Teoremas de Geometria, 
McCarthy disenô su programa para buscar la soluciôn a problemas utilizando el conoci- 
miento. Pero, a diferencia de los otros, manejaba el conocimiento general del mundo. Por 
ejemplo, mostré como algunos axiomas sencillos permitian a un programa generar un plan 
para conducimos hasta el aeropuerto y tomar un avion. El programa se disenô para que 
aceptase nuevos axiomas durante el curso normal de operaciôn, permitiéndole asi ser com¬ 
petente en areas nuevas, sin necesidad de reprogramaciôn. El Generador de Consejos in- 
corporaba asi los principios centrales de la representaciôn del conocimiento y el razona- 
miento: es ütil contar con una representaciôn formai y explicita del mundo y de la forma 
en que la acciôn de un agente afecta al mundo, asi como, ser capaces de manipular estas 
representaciones con procesos deductivos. Es sorprendente constatar como mucho de lo 
propuesto en el articulo escrito en 1958 permanece vigente incluso en la actualidad. 

1958 fue el ano en el que Marvin Minsky se trasladô al MIT. Sin embargo, su cola- 
boraciôn inicial no durô demasiado. McCarthy se centré en la representaciôn y el razo- 
namiento con lôgica formai, mientras que Minsky estaba mas interesado en lograr que los 
programas funcionaran y eventualmente desarrollô un punto de vista anti-lôgico. En 1963 
McCarthy créé el Laboratorio de IA en Stanford. Su plan para construir la version mas re- 
ciente del Generador de Consejos con ayuda de la lôgica sufriô un considérable impulso 
gracias al descubrimiento de J. A. Robinson del método de resoluciôn (un algoritmo com¬ 
pleto para la demostraciôn de teoremas para la lôgica de primer orden; véase el Capitulo 
9). El trabajo realizado en Stanford hacia énfasis en los métodos de propôsito general para 
el razonamiento lôgico. Algunas aplicaciones de la lôgica incluian los sistemas de plani- 
ficaciôn y respuesta a preguntas de Cordell Green (1969b), asi como el proyecto de ro- 
bôtica de Shakey en el nuevo Instituto de Investigaciôn de Stanford (Stanford Research 
Institute, SRI). Este ültimo proyecto, comentado en detalle en el Capitulo 25, fue el pri- 
mero que demostrô la total integraciôn del razonamiento lôgico y la actividad fisica. 

Minsky supervisé el trabajo de una sérié de estudiantes que eligieron un nümero de 
problemas limitados cuya soluciôn pareciô requérir inteligencia. Estos dominios limi- 
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micromundos tados se conocen como micromundos. El programa SAINT de James Slagle (1963a) 

fue capaz de resolver problemas de integraciôn de câlculo en forma cerrada, habituales 
en los primeras cursos de licenciatura. El programa ANALOGY de Tom Evans (1968) 
resolvfa problemas de analogla geométrica que se aplicaban en las pruebas de mediciôn 
de inteligencia, semejante al de la Figura 1.4. El programa STUDENT de Daniel Bo- 
brow (1967) podia resolver problemas de âlgebra del tipo: 

Si el nümero de clientes de Tom es dos veces el cuadrado del 20 por ciento de la canti- 

dad de anuncios que realiza, y éstos ascienden a 45, / cuûntos clientes tiene Tom? 

El micromundo mas famoso fue el mundo de los bloques, que consiste en un con- 
junto de bloques sôlidos colocados sobre una mesa (mas frecuentemente, en la simula- 
ciôn de ésta), como se muestra en la Figura 1.5. Una tarea ripica de este mundo es la 
reordenaciôn de los bloques de cierta manera, con la ayuda de la mano de un robot que 
es capaz de tomar un bloque cada vez. El mundo de los bloques fue el punto de partida 
para el proyecto de vision de David Huffman (1971), la vision y el trabajo de propaga- 
ciôn con restricciones de David Waltz (1975), la teoria del aprendizaje de Patrick Wins¬ 
ton (1970), del programa para la comprensiôn de lenguaje natural de Terry Winograd 
(1972) y del planificador de Scott Fahlman (1974). 

El trabajo realizado por McCulloch y Pitts con redes neuronales hizo florecer esta 
area. El trabajo de Winograd y Cowan (1963) mostrô como un gran nümero de elementos 
podria representar un concepto individual de forma colectiva, lo cual llevaba consigo un 
aumento proporcional en robustez y paralelismo. Los métodos de aprendizaje de Hebb 
se reforzaron con las aportaciones de Bernie Widrow (Widrow y Hoff, 1960; Widrow, 
1962), quien llamô adalines a sus redes, y por Frank Rosenblatt (1962) con sus per- 
ceptrones. Rosenblatt demostrô el famoso teorema del perceptron, con lo que mostrô 
que su algoritmo de aprendizaje podria ajustar las intensidades de las conexiones de un 
perceptron para que se adaptaran a los datos de entrada, siempre y cuando existiera una 
correspondencia. Estos temas se explicarân en el Capitulo 20. 
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Figura 1.5 Esquema del mundo de los bloques. SHRDLU (Winograd, 1972) ha completado su 
tarea, «Busca un bloque que sea mas alto que el que ahora tienes y ponlo en la caja». 


Una dosis de realidad (1966-1973) 

Desde el principio, los investigadores de IA hicieron püblicas, sin timidez, predicciones 
sobre el éxito que les esperaba. Con frecuencia, se cita el siguiente comentario realiza- 
do por Herbert Simon en 1957: 

Sin afân de sorprenderlos y dejarlos atônitos, pero la forma mas sencilla que tengo de re- 
sumirlo es diciéndoles que actualmente en el mundo existen mâquinas capaces de pen- 
sar, aprender y crear. Ademâs, su aptitud para hacer lo anterior aumentarâ râpidamente 
hasta que (en un future prévisible) la magnitud de problemas que serân capaces de re- 
solver ira a la par que la capacidad de la mente humana para hacer lo mismo. 

Términos como «future prévisible» pueden interpretarse de formas distintas, pero Simon 
también hizo predicciones mas concretas: como que en diez anos un computador llega- 
ria a ser campeon de ajedrez, y que se podria demostrar un importante teorema mate- 
mâtico con una mâquina. Estas predicciones se cumplirfan (al menos en parte) dentro 
de los siguientes 40 anos y no en diez. El exceso de confianza de Simon se debiô a la 
prometedora actuacion de los primeros sistemas de IA en problemas simples. En la ma- 
yor parte de los casos résulté que estos primeros sistemas fallaron estrepitosamente cuan- 
do se utilizaron en problemas mas variados o de mayor dificultad. 

El primer tipo de problemas surgio porque la mayoria de los primeros programas con- 
taban con poco o ningün conocimiento de las materia objeto de estudio; obtenfan resul- 
tados gracias a sencillas manipulaciones sintâcticas. Una anécdota tipica tuvo lugar 
cuando se comenzaba a trabajar en la traduccion automâtica, actividad que recibia un 
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EVOLUCION 

AUTOMÂTICA 


generoso patrocinio del Consejo Nacional para la Investigaciôn de Estados Unidos en 
un intento de agilizar la traducciôn de arriculos cicntfficos rusos en vlsperas del lanza- 
miento del Sputnik en 1957. Al principio se considéré que todo se reduciria a sencillas 
transformaciones sintâcticas apoyadas en las gramâticas rusas e inglesa y al emplaza- 
miento de palabras mediante un diccionario electrônico, lo que bastarfa para obtener el 
significado exacto de las oraciones. La realidad es que para traducir es necesario contar 
con un conocimiento general sobre el tema, que permita resolver ambigüedades y asf, 
precisar el contenido de una oraciôn. La famosa retraducciôn del ruso al inglés de la fra¬ 
se «el esplritu es fuerte pero la came es débil», cuyo resultado fue «el vodka es bueno 
pero la carne esta podrida» es un buen ejemplo del tipo de dificultades que surgieron. 
En un informe presentado en 1966, el comité consultivo déclaré que «no se ha logrado 
obtener ninguna traducciôn de textos cientificos generales ni se prevé obtener ninguna 
en un futuro inmediato». Se cancelô todo el patrocinio del gobierno estadounidense que 
se habia asignado a los proyectos académicos sobre traducciôn. Hoy dia, la traducciôn 
automâtica es una herramienta imperfecta pero de uso extendido en documentos técni- 
cos, comerciales, gubernamentales y de Internet. 

El segundo problema fue que muchos de los problemas que se estaban intentando 
resolver mediante la IA eran intratables. La mayoria de los primeros programas de IA 
resolvfan problemas experimentando con diversos pasos hasta que se llegara a encon- 
trar una soluciôn. Esto funcionô en los primeros programas debido a que los micromundos 
con los que se trabajaba contenian muy pocos objetos, y por lo tanto muy pocas accio- 
nes posibles y secuencias de soluciones muy cortas. Antes de que se desarrollara la teorfa 
de la complejidad computacional, se crefa que para «aumentar» el tamano de los pro¬ 
gramas de forma que estos pudiesen solucionar grandes problemas séria necesario 
incrementar la velocidad del hardware y aumentar las memorias. El optimismo que acom- 
panô al logro de la demostraciôn de problemas, por ejemplo, pronto se vio eclipsado cuan- 
do los investigadores fracasaron en la demostraciôn de teoremas que implicaban mas de 
unas pocas decenas de condiciones. El hecho de que, en principio, un programa sea capaz 
de encontrar una soluciôn no implica que tal programa encierre todos los mecanismos 
necesarios para encontrar la soluciôn en la prâctica. 

La ilusoria nociôn de una ilimitada capacidad de cômputo no solo existiô en los pro¬ 
gramas para la resoluciôn de problemas. Los primeros experimentos en el campo de la 
evoluciôn automâtica (ahora llamados algoritmos genéticos) (Friedberg, 1958; Fried- 
berg et al., 1959) estaban basados en la, sin duda correcta, premisa de que efectuando 
una adecuada sérié de pequenas mutaciones a un programa de côdigo mâquina se po- 
drfa generar un programa con buen rendimiento aplicable en cualquier tarea sencilla. 
Después surgiô la idea de probar con mutaciones aleatorias aplicando un proceso de se- 
lecciôn con el fin de conservar aquellas mutaciones que hubiesen demostrado ser mas 
utiles. No obstante, las miles de horas de CPU dedicadas, no dieron lugar a ningün avan¬ 
ce tangible. Los algoritmos genéticos actuales utilizan representaciones mejores y han 
tenido mas éxito. 

La incapacidad para manejar la «explosion combinatoria» fue una de las principa¬ 
les crfticas que se hicieron a la IA en el informe de Lighthill (Lighthill, 1973), informe 
en el que se basô la decision del gobierno britânico para retirar la ayuda a las investiga- 
ciones sobre IA, excepto en dos universidades. (La tradiciôn oral présenta un cuadro un 
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poco distinto y mas animado, en el que se vislumbran ambiciones politicas y animad- 
versiones personales, cuya descripciôn esta fuera del âmbito de esta obra.) 

El tercer obstâculo se derivo de las limitaciones inhérentes a las estructuras bâsicas 
que se utilizaban en la generaciôn de la conducta inteligente. Por ejemplo, en 1969, en 
el libro de Minsky y Papert, Perceptrons, se demostrô que si bien era posible lograr que 
los perceptrones (una red neuronal simple) aprendieran cualquier cosa que pudiesen re- 
presentar, su capacidad de representaciôn era muy limitada. En particular, un perceptrôn 
con dos entradas no se podia entrenar para que aprendiese a reconocer cuândo sus dos 
entradas eran diferentes. Si bien los resultados que obtuvieron no eran aplicables a re- 
des mas complejas multicapa, los fondos para la investigaciôn de las redes neuronales 
se redujeron a prâcticamente nada. Es irônico que los nuevos algoritmos de aprendiza- 
je de retroalimentaciôn utilizados en las redes multicapa y que fueron la causa del gran 
resurgimiento de la investigaciôn en redes neuronales de finales de los anos 80, en rea- 
lidad, se hayan descubierto por primera vez en 1969 (Bryson y Ho, 1969). 

Sistemas basados en el conocimiento: 

Relave del poder? (1969-1979) 

El cuadro que dibujaba la resoluciôn de problemas durante la primera década de la in¬ 
vestigaciôn en la IA estaba centrado en el desarrollo de mecanismos de büsqueda de pro- 
pôsito general, en los que se entrelazaban elementos de razonamiento bâsicos para encontrar 
métodos débiles asf soluciones complétas. A estos procedimientos se les ha denominado métodos débi¬ 
les, debido a que no tratan problemas mas amplios o mas complejos. La altemativa a los 
métodos débiles es el uso de conocimiento especffico del dominio que facilita el desarro¬ 
llo de etapas de razonamiento mas largas, pudiéndose asi resolver casos récurrentes en do- 
minios de conocimiento restringido. Podrfa afirmarse que para resolver un problema en 
la prâctica, es necesario saber de antemano la correspondiente respuesta. 

El programa DENDRAL (Buchanan et al., 1969) constituye uno de los primeras ejem- 
plos de este enfoque. Fue disenado en Stanford, donde Ed Feigenbaum (discipulo de Her¬ 
bert Simon), Bruce Buchanan (filôsofo convertido en informâtico) y Joshua Lederberg 
(genetista ganador del Premio Nobel) colaboraron en la soluciôn del problema de infe- 
rir una estructura molecular a partir de la informaciôn proporcionada por un espectrô- 
metro de masas. El programa se alimentaba con la formula elemental de la molécula 
(por ejemplo, C 6 H 13 N0 2 ) y el espectro de masas, proporcionando las masas de los dis- 
tintos fragmentos de la molécula generada después de ser bombardeada con un haz de 
electrones. Por ejemplo, un espectro de masas con un pico en m = 15, corresponderia a 
la masa de un fragmento de metilo (CH 3 ). 

La version mas simple del programa generaba todas las posibles estructuras que co- 
rrespondieran a la formula, luego predecia el espectro de masas que se observaria en cada 
caso, y comparaba éstos con el espectro real. Como era de esperar, el método anterior 
résulté pronto inviable para el caso de moléculas con un tamano considérable. Los 
creadores de DENDRAL consultaron con qufmicos analiticos y se dieron cuenta de que 
éstos trabajaban buscando patrones conocidos de picos en el espectro que sugerian 
estructuras comunes en la molécula. Por ejemplo, par identificar el subgrupo (con un peso 
de 28) de las cetonas (C=0) se empleô la siguiente régla: 
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si hay dos picos en x 1 y x 2 taies que 

a ) Xj + x 2 = M + 28 (siendo M la masa de toda la molécula); 

b) Xj — 28 es un pico alto; 

c ) x 2 — 28 es un pico alto; 

d) al menos una de x x y x 2 es alta. 

entonces existe un subgrupo de cetonas 

Al reconocer que la molécula contiene una subestmctura concreta se reduce el nümero de 
posibles candidatos de forma considérable. La potencia de DENDRAL se basaba en que: 

Toda la informacion teôrica necesaria para resolver estos problemas se ha proyectado des- 
de su forma general [componente predicho por el espectro] («primeros principios») a for¬ 
mas eficientes especiales («recetas de cocina»). (Feigenbaum et al., 1971) 

La trascendencia de DENDRAL se debiô a ser el primer sistema de conocimiento in¬ 
tense > que tuvo éxito: su base de conocimiento estaba formada por grandes cantidades 
de réglas de proposito particular. En sistemas disenados posteriormente se incorporaron 
también los elementos fundamentales de la propuesta de McCarthy para el Generador 
de Consejos, la nitida separaciôn del conocimiento (en forma de réglas) de la parte co- 
rrespondiente al razonamiento. 

Teniendo en cuenta esta leccion, Feigenbaum junto con otros investigadores de Stanford 
dieron comienzo al Proyecto de Programaciôn Heuristica, PPH, dedicado a determinar 
sistemas expertos el grado con el que la nueva metodologia de los sistemas expertos podia aplicarse a otras 
areas de la actividad humana. El siguiente gran esfuerzo se realizo en el area del diagnôs- 
tico médico. Feigenbaum, Buchanan y el doctor Edward Shortliffe disenaron el progra- 
ma MYCIN, para el diagnostico de infecciones sanguineas. Con 450 réglas aproximadamente, 
MYCIN era capaz de hacer diagnôsticos tan buenos como los de un experto y, desde luego, 
mejores que los de un médico recién graduado. Se distinguia de DENDRAL en dos aspec- 
tos principalmente. En primer lugar, a diferencia de las réglas de DENDRAL, no se contaba 
con un modelo teôrico desde el cual se pudiesen deducir las réglas de MYCIN. Fue necesa- 
rio obtenerlas a partir de extensas entrevistas con los expertos, quienes las habian obtenido 
de libros de texto, de otros expertos o de su experiencia directa en casos prâcticos. En segundo 
lugar, las réglas deberfan reflejar la incertidumbre inherente al conocimiento médico. MYCIN 
contaba con un elemento que facilitaba el câlculo de incertidumbre denominado factores de 
certeza iyéase el Capitulo 13), que al parecer (en aquella época) correspondra muy bien a la 
manera como los médicos ponderaban las evidencias al hacer un diagnostico. 

La importancia del conocimiento del dominio se demostrô también en el area de la 
comprension del lenguaje natural. Aunque el sistema SHRDLU de Winograd para la com- 
prensiôn del lenguaje natural habia suscitado mucho entusiasmo, su dependencia del anâ- 
lisis sintâctico provoco algunos de los mismos problemas que habian aparecido en los 
trabajos realizados en la traducciôn automâtica. Era capaz de resolver los problemas de 
ambigüedad e identificar los pronombres utilizados, gracias a que se habia disenado es- 
pecialmente para un area (el mundo de los bloques). Fueron varios los investigadores 
que, como Eugene Charniak, estudiante de Winograd en el MIT, opinaron que para una 
solida comprension del lenguaje era necesario contar con un conocimiento general so¬ 
bre el mundo y un método general para usar ese conocimiento. 
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En Yale, el lingüista transformado en informâtico Roger Schank reforzô lo anterior 
al afirmar: «No existe eso que llaman sintaxis», lo que irrité a muchos lingüistas, pero 
sirviô para iniciar un ütil debate. Schank y sus estudiantes disenaron una sérié de pro- 
gramas (Schank y Abelson, 1977; Wilensky, 1978; Schank y Riesbeck, 1981; Dyer, 1983) 
cuyo objetivo era la comprension del lenguaje natural. El foco de atenciôn estaba menos 
en el lenguaje per se y mas en los problemas vinculados a la representacion y razona- 
miento del conocimiento necesario para la comprension del lenguaje. Entre los problemas 
estaba el de la representacion de situaciones estereotipo (Cullingford, 1981), la des- 
cripcién de la organizaciôn de la memoria humana (Rieger, 1976; Kolodner, 1983) y la 
comprension de planes y objetivos (Wilensky, 1983). 

El crecimiento generalizado de aplicaciones para solucionar problemas del mundo 
real provocô el respectivo aumento en la demanda de esquemas de representacion del 
conocimiento que funcionaran. Se desarrollo una considérable cantidad de lenguajes de 
representacion y razonamiento diferentes. Algunos basados en la lôgica, por ejemplo el 
lenguaje Prolog gozo de mucha aceptacion en Europa, aceptacion que en Estados Uni- 
marcos dos fue para la familia del Planner. Otros, siguiendo la nociôn de marcos de Minsky 

(1975), se decidieron por un enfoque mas estructurado, al recopilar informaciôn sobre 
objetos concretos y tipos de eventos, organizando estos tipos en grandes jerarquias ta- 
xonômicas, similares a las biolôgicas. 


La IA se convierte en una industria 
(desde 1980 hasta el présente) 

El primer sistema experto comercial que tuvo éxito, R1, iniciô su actividad en Digital Equip- 
ment Corporation (McDermott, 1982). El programa se utilizaba en la elaboraciôn de pedi- 
dos de nuevos sistemas informâticos. En 1986 representaba para la compama un ahorro es- 
timado de 40 millones de dôlares al ano. En 1988, el grupo de Inteligencia Artificial de DEC 
habia distribuido ya 40 sistemas expertos, y habia mas en camino. Du Pont utilizaba ya 100 
y estaban en etapa de desarrollo 500 mas, lo que le generaba ahorro de diez millones de do¬ 
lares anuales aproximadamente. Casi todas las companias importantes de Estados Unidos 
contaban con su propio gmpo de IA, en el que se utilizaban o investigaban sistemas expertos. 

En 1981 los japoneses anunciaron el proyecto «Quinta Generaciôn», un plan de diez 
anos para construir computadores inteligentes en los que pudiese ejecutarse Prolog. Como 
respuesta Estados Unidos constituyo la Microelectronics and Computer Technology 
Corporation (MCC), consorcio encargado de mantener la competitividad nacional en es¬ 
tas areas. En ambos casos, la IA formaba parte de un gran proyecto que incluia el dise- 
no de chips y la investigaciôn de la relaciôn hombre mâquina. Sin embargo, los com- 
ponentes de IA generados en el marco de MCC y del proyecto Quinta Generaciôn nunca 
alcanzaron sus objetivos. En el Reino Unido, el informe Alvey restauré el patrocinio sus- 
pendido por el informe Lighthill 15 . 


15 Para evitar confusiones, se creo un nuevo campo denominado Sistemas Inteligentes Basados en Conoci¬ 
miento (IKBS, Intelligent Knowledge-Based Systems) ya que la Inteligencia Artificial habia sido oficialmente 
cancelada. 
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En su conjunto, la industria de la IA creciô râpidamente, pasando de unos pocos mi- 
llones de dôlares en 1980 a billones de dôlares en 1988. Poco después de este perfodo 
llegé la época llamada «El Inviemo de la IA», que afectô a muchas empresas que no fue- 
ron capaces de desarrollar los extravagantes productos prometidos. 


Regreso de las redes neuronales 
(desde 1986 hasta el présente) 

Aunque la informâtica habia abandonado de manera general el campo de las redes neuro¬ 
nales a finales de los anos 70, el trabajo continué en otros campos. Fisicos como John 
Hopfield (1982) utilizaron técnicas de la mecânica estadistica para analizar las propieda- 
des de almacenamiento y optimizaciôn de las redes, tratando colecciones de nodos como 
colecciones de âtomos. Psicôlogos como David Rumelhart y Geoff Hinton continuaron con 
el estudio de modelos de memoria basados en redes neuronales. Como se verâ en el Ca- 
pitulo 20, el impulso mas fuerte se produjo a mediados de la década de los 80, cuando por 
lo menos cuatro grupos distintos reinventaron el algoritmo de aprendizaje de retroali- 
mentacion, mencionado por vez primera en 1969 por Bryson y Ho. El algoritmo se apli- 
co a diversos problemas de aprendizaje en los campos de la informâtica y la psicologia, y 
la gran difusion que conocieron los resultados obtenidos, publicados en la colecciôn Pa- 
rallel Distributed Processing (Rumelhart y McClelland, 1986), suscité gran entusiasmo. 
conexionistas Aquellos modelos de inteligencia artificial llamados conexionistas 16 fueron vistos por 

algunos como competidores tanto de los modelos simbôlicos propuestos por Newell y 
Simon como de la aproximaciôn lôgica de McCarthy entre otros (Smolensky, 1988). Pue- 
de parecer obvio que los humanos manipulan simbolos hasta cierto nivel, de hecho, el li¬ 
bre The Symbolic Species (1997) de Terrence Deacon sugiere que esta es la caractensti- 
ca que define a los humanos, pero los conexionistas mas ardientes se preguntan si la 
manipulaciôn de los simbolos desempena algünpapel justificable en determinados modelos 
de cogniciôn. Este interrogante no ha sido aün clarificado, pero la tendencia actual es que 
las aproximaciones conexionistas y simbôlicas son complementarias y no competidoras. 

IA se convierte en una ciencia 
(desde 1987 hasta el présente) 

En los ültimos anos se ha producido una revoluciôn tanto en el contenido como en la 
metodologia de trabajo en el campo de la inteligencia artificial. 17 Actualmente es mas 
usual el desarrollo sobre teorias ya existentes que proponer teorfas totalmente novedo- 


16 Se usa la traducciôn literal del término connectionist por no existir un término équivalente en espanol 
(N. ciel RT). 

17 Hay quien ha caracterizado este cambio como la Victoria de los pulcros (aquellos que consideran que las 
teorias de IA deben basarse rigurosamente en las matemâticas) sobre los desalinados (aquellos que después 
de intentar muchas ideas, escriben algunos programas y después evalüan las que aparentemente funcionan). 
Ambos enfoques son utiles. Esta tendencia en favor de una mayor pulcritud es senal de que el campo ha al- 
canzado cierto nivel de estabilidad y madurez. Lo cual no implica que tal estabilidad se puede ver alterada 
con el surgimiento de otras ideas poco estructuradas. 
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sas, tomar como base rigurosos teoremas o solidas evidencias experimentales mas que 
intuicion, y demostrar la utilidad de las aplicaciones en el mundo real mas que crear ejem- 
plos de juguete. 

La IA se fundo en parte en el marco de una rebeliôn en contra de las limitaciones de 
los campos existentes como la teoria de control o la estadfstica, y ahora abarca estos cam- 
pos. Tal y como indica David McAllester (1998), 

En los primeros anos de la IA parecfa perfectamente posible que las nuevas formas de la 
computacion simbolica, por ejemplo, los marcos y las redes semânticas, hicieran que la 
mayor parte de la teoria clâsica pasara a ser obsoleta. Esto llevo a la IA a una especie de 
aislamiento, que la separo del resto de las ciencias de la computacion. En la actualidad 
se esta abandonando este aislamiento. Existe la creencia de que el aprendizaje automâ- 
tico no se debe separar de la teoria de la informacién, que el razonamiento incierto no se 
debe separar de los modelos estocâsticos, de que la büsqueda no se debe aislar de la op- 
timizacion clâsica y el control, y de que el razonamiento automâtico no se debe separar 
de los métodos formales y del anâlisis estâtico. 

En términos metodologicos, se puede decir, con rotundidad, que la IA ya forma parte 
del âmbito de los métodos cientfficos. Para que se acepten, las hipotesis se deben someter 
a rigurosos experimentos empiricos, y los resultados deben analizarse estadfsticamente 
para identificar su relevancia (Cohen, 1995). El uso de Internet y el compartir reposito- 
rios de datos de prueba y codigo, ha hecho posible que ahora se puedan contrastar ex¬ 
perimentos. 

Un buen modelo de la tendencia actual es el campo del reconocimiento del habla. 
En la década de los 70 se sometio a prueba una gran variedad de arquitecturas y enfo- 
ques. Muchos de ellos fueron un tanto ad hoc y resultaban fragiles, y fueron probados 
solo en unos pocos ejemplos elegidos especialmente. En anos recientes, las aproxima- 
ciones basadas en los modelos de Markov ocultos, MMO, han pasado a dominar el area. 
Dos son las caracteristicas de los MMO que tienen relevancia. Primero, se basan en una 
rigurosa teoria matemâtica, lo cual ha permitido a los investigadores del lenguaje basarse 
en los resultados de investigaciones matemâticas hechas en otros campos a lo largo de 
varias décadas. En segundo lugar, los modelos se han generado mediante un proceso de 
aprendizaje en grandes corpus de datos de lenguaje reales. Lo cual garantiza una 
funcionalidad robusta, y en sucesivas pruebas ciegas, los MMO han mejorado sus 
resultados a un ritmo constante. La tecnologla del habla y el campo relacionado del 
reconocimiento de caractères manuscritos estân actualmente en transicion hacia una 
generalizada utilizacion en aplicaciones industriales y de consumo. 

Las redes neuronales también siguen esta tendencia. La mayor parte del trabajo 
realizado con redes neuronales en la década de los 80 se realizô con la idea de dejar a 
un lado lo que se podla hacer y de descubrir en qué se diferenciaban las redes neurona¬ 
les de otras técnicas «tradicionales». La utilizacion de metodologfas mejoradas y mar¬ 
cos teoricos, ha autorizado que este campo alcance un grado de conocimiento que ha per¬ 
mitido que ahora las redes neuronales se puedan comparar con otras técnicas similares 
de campos como la estadfstica, el reconocimiento de patrones y el aprendizaje automâ¬ 
tico, de forma que las técnicas mas prometedoras pueden aplicarse a cualquier proble- 
mineria de datos ma. Como resultado de estos desarrollos, la tecnologfa denominada minerfa de datos 
ha generado una nueva y vigorosa industria. 
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La apariciôn de Probabilistic Reasoning in Intelligent Systems de Judea Pearl (1988) 
hizo que se aceptara de nuevo la probabilidad y la teoria de la decision como parte de 
la IA, como consecuencia del resurgimiento del interés despertado y gracias especial- 
mente al arriculo In Defense of Probability de Peter Cheeseman (1985). El formalismo 
de las redes de Bayes apareciô para facilitar la representaciôn eficiente y el razonamiento 
riguroso en situaciones en las que se disponia de conocimiento incierto. Este enfoque 
supera con creces muchos de los problemas de los sistemas de razonamiento probabi- 
listico de las décadas de los 60 y 70; y ahora domina la investigaciôn de la IA en el ra¬ 
zonamiento incierto y los sistemas expertos. Esta aproximaciôn facilita el aprendizaje a 
partir de la experiencia, y combina lo mejor de la IA clâsica y las redes neuronales. El 
trabajo de Judea Pearl (1982a) y de Eric Horvitz y David Heckerman (Horvitz y Hec- 
kerman, 1986; Horvitz et al., 1986) sirviô para promover la nociôn de sistemas exper¬ 
tos normativos : es decir, los que actüan racionalmente de acuerdo con las leyes de la te¬ 
oria de la decision, sin que intenten imitar las etapas de razonamiento de los expertos 
humanos. El sistema operativo Windows™ incluye varios sistemas expertos de diag- 
nôstico normativos para la correcciôn de problemas. En los Capitulos 13 y 16 se abor¬ 
da este tema. 

Revoluciones similares y suaves se han dado en robôtica, vision por computador, y 
aprendizaje automâtico. La comprensiôn mejor de los problemas y de su complejidad, 
junto a un incremento en la sofisticaciôn de las matemâticas ha facilitado el desarrollo 
de una agenda de investigaciôn y de métodos mas robustos. En cualquier caso, la for- 
malizaciôn y especializaciôn ha llevado también a la fragmentaciôn: areas como la vi¬ 
sion y la robôtica estân cada vez mas aislados de la «rama central» de la IA. La concepciôn 
unificadora de IA como diseno de agentes racionales puede facilitar la unificaciôn de 
estos campos diferentes. 


Emergencia de los sistemas inteligentes 
(desde 1995 hasta el présente) 

Quizâs animados por el progreso en la resoluciôn de subproblemas de IA, los investi- 
gadores han comenzado a trabajar de nuevo en el problema del «agente total». El tra¬ 
bajo de Allen Newell, John Laird, y Paul Rosenbloom en Soar (Newell, 1990; Laird 
et al., 1987) es el ejemplo mejor conocido de una arquitectura de agente compléta. El 
llamado «movimiento situado» intenta entender la forma de actuar de los agentes in- 
mersos en entornos reales, que disponen de sensores de entradas continuas. Uno de los 
medios mas importantes para los agentes inteligentes es Internet. Los sistemas de IA han 
llegado a ser tan comunes en aplicaciones desarrolladas para la Web que el sufijo «-bot» 
se ha introducido en el lenguaje comün. Mas aün, tecnologfas de IA son la base de mu- 
chas herramientas para Internet, como por ejemplo motores de büsqueda, sistemas de 
recomendaciôn, y los sistemas para la construcciôn de portales Web. 

Ademâs de la primera ediciôn de este libro de texto (Russell y Norvig, 1995), otros 
libres de texto han adoptado recientemente la perspectiva de agentes (Poole et al., 1998; 
Nilsson, 1998). Una de las conclusiones que se han extraido al tratar de construir agen¬ 
tes complétas ha sido que se deberfan reorganizar los subcampos aislados de la IA para 
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que sus resultados se puedan interrelacionar. En particular, ahora se créé mayoritariamente 
que los sistemas sensoriales (vision, sonar, reconocimiento del habla, etc.) no pueden ge- 
nerar informaciôn totalmente fidedigna del medio en el que habitan. Otra segunda con- 
secuencia importante, desde la perspectiva del agente, es que la IA se ha ido acercando 
a otros campos, como la teoria de control y la economia, que también tratan con agentes. 


1.4 El estado del arte 


<-Qué es capaz de hacer la IA hoy en dia? Responder de manera concisa es dificil por- 
que hay muchas actividades divididas en muchos subcampos. Aqui se presentan unas 
cuantas aplicaciones; otras aparecerân a lo largo del texto. 

Planificaciôn autônoma: a un centenar de millones de millas de la Tierra, el pro- 
grama de la NASA Agente Remoto se convirtiô en el primer programa de planificaciôn 
autônoma a bordo que controlaba la planificaciôn de las operaciones de una nave espa- 
cial desde abordo (Jonsson et al., 2000). El Agente Remoto generaba planes a partir de 
objetivos generales especificados desde tierra, y monitorizaba las operaciones de la 
nave espacial segün se ejecutaban los planes (detecciôn, diagnôstico y recuperaciôn de 
problemas segün ocurrian). 

Juegos: Deep Blue de IBM fue el primer sistema que derrotô a un campeôn mun- 
dial en una partida de ajedrez cuando superô a Garry Kasparov por un resultado de 3.5 
a 2.5 en una partida de exhibiciôn (Goodman y Keene, 1997). Kasparov dijo que habia 
percibido un «nuevo tipo de inteligencia» al otro lado del tablera. La revista Newsweek 
describiô la partida como «La partida final». El valor de las acciones de IBM se incre- 
mentô en 18 billones de dôlares. 

Control autônomo: el sistema de vision por computador Alvinn fue entrenado para 
dirigir un coche de forma que siguiese una linea. Se instalô en una furgoneta controla- 
da por computador en el NavLab de UCM y se utilizô para dirigir al vehiculo por Es- 
tados Unidos. Durante 2.850 millas contrôlé la direcciôn del vehiculo en el 98 por cien- 
to del trayecto. Una persona lo sustituyô en el dos por ciento restante, principalmente 
en vlas de salida. El NavLab posee videocâmaras que transmiten imâgenes de la carre- 
tera a Alvinn, que posteriormente calcula la mejor direcciôn a seguir, basândose en las 
experiencias acumuladas en los viajes de entrenamiento. 

Diagnosis: los programas de diagnôstico médico basados en el anâlisis probabilis- 
ta han llegado a alcanzar niveles similares a los de médicos expertos en algunas areas 
de la medicina. Heckerman (1991) describe un caso en el que un destacado experto en 
la patologla de los nodos linfâticos se mofô del diagnôstico generado por un programa 
en un caso especialmente dificil. El creador del programa le sugiriô que le preguntase 
al computador como habla generado el diagnôstico. La mâquina indicô los factores mas 
importantes en los que habla basado su decision y explicô la figera interacciôn existen- 
te entre varios de los slntomas en este caso. Eventualmente, el experto aceptô el diag¬ 
nôstico del programa. 

Planificaciôn loglstica: durante la crisis del Golfo Pérsico de 1991, las fuerzas de 
Estados Unidos desarrollaron la herramienta Dynamic Analysis and Replanning Tool 
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(DART) (Cross y Walker, 1994), para automatizar la planificacion y organizacion loglstica 
del transporte. Lo que inclina hasta 50.000 vehiculos, carga y personal a la vez, tenien- 
do en cuenta puntos de partida, destinos, rutas y la resolucion de conflictos entre otros 
parâmetros. Las técnicas de planificacion de IA permitieron que se generara un plan en 
cuestion de horas que podria haber llevado semanas con otros métodos. La agencia DAR- 
PA (Defense Advanced Research Project Agency) afirmo que esta aplicaciôn por si sola 
habia mas que amortizado los 30 anos de inversion de DARPA en IA. 

Robôtica: muchos cirujanos utilizan hoy en dla asistentes robot en operaciones de 
microcirugla. HipNav (DiGioia et al., 1996) es un sistema que utiliza técnicas de vision 
por computador para crear un modelo tridimensional de la anatomia interna del pacien- 
te y después utiliza un control robotizado para guiar el implante de prôtesis de cadera. 

Procesamiento de lenguaje y resolucion de problemas: Prover b (Littman et al., 
1999) es un programa informâtico que resuelve crucigramas mejor que la mayoria de 
los humanos, utilizando restricciones en programas de relleno de palabras, una gran base 
de datos de cmcigramas, y varias fuentes de informacion como diccionarios y bases de 
datos online, que incluyen la lista de pellculas y los actores que intervienen en ellas, entre 
otras cosas. Por ejemplo, détermina que la pista «Historia de Niza» se puede resolver 
con «ETAGE» ya que su base de datos incluye el par pista/solucion «Historia en Fran- 
cia/ETAGE» y porque reconoce que los patrones «Niza X» y «X en Francia» a menu- 
do tienen la misma soluciôn. El programa no sabe que Niza es una ciudad de Francia, 
pero es capaz de resolver el puzle. 

Estos son algunos de los ejemplos de sistemas de inteligencia artificial que existen 
hoy en dla. No se trata de magia o ciencia ficciôn, son mas bien ciencia, ingenierfa y ma- 
temâticas, para los que este libro proporciona una introducciôn. 


1.5 Resumen 


En este capltulo se define la IA y se establecen los antecedentes culturales que han ser- 
vido de base. Algunos de los aspectos mas destacables son: 

• Cada uno tiene una vision distinta de lo que es la IA. Es importante responder a 
las dos preguntas siguientes: / ; Estâ interesado en el razonamiento y el comporta- 
miento? Dcsca modelar seres humanos o trabajar a partir de un idéal estândar? 

• En este libro se adopta el criterio de que la inteligencia tiene que ver principalmente 
con las acciones racionales. Desde un punto de vista idéal, un agente inteligen- 
te es aquel que emprende la mejor accion posible ante una situacion dada. Se 
estudiarâ el problema de la construccion de agentes que sean inteligentes en este 
sentido. 

• Los filosofos (desde el ano 400 a.C.) facilitaron el poder imaginar la IA, al con- 
cebir la idea de que la mente es de alguna manera como una mâquina que funcio- 
na a partir del conocimiento codificado en un lenguaje intemo, y al considerar que 
el pensamiento servla para seleccionar la accion a llevar a cabo. 

• Las matemâticas proporcionaron las herramientas para manipular tanto las ase- 
veraciones de certeza logicas, como las inciertas de tipo probabilista. Asimismo, 
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prepararon el terreno para un entendimiento de lo que es el câlculo y el razona- 
miento con algoritmos. 

• Los economistas formalizaron el problema de la toma de decisiones para maxi- 
mizar los resultados esperados. 

• Los psicôlogos adoptaron la idea de que los humanos y los animales podian con- 
siderarse mâquinas de procesamiento de informacion. Los lingüistas demostraron 
que el uso del lenguaje se ajusta a ese modelo. 

• Los informâticos proporcionaron los artefactos que hicieron posible la aplicacion 
de la IA. Los programas de IA tienden a ser extensos y no podrfan funcionar sin 
los grandes avances en velocidad y memoria aportados por la industria informâ- 
tica. 

• La teoria de control se centra en el diseno de dispositivos que actüan de forma op- 
tima con base en la retroalimentaciôn que reciben del entomo en el que estân inmersos. 
Inicialmente, las herramientas matemâticas de la teoria de control eran bastante 
diferentes a las técnicas que utilizaba la IA, pero ambos campos se estân acercando. 

• Las historia de la IA ha pasado por ciclos de éxito, injustificado optimismo y con- 
secuente desaparicion de entusiasmo y apoyos financieros. También ha habido 
ciclos caracterizados por la introducciôn de enfoques nuevos y creativos y de un 
perfeccionamiento sistemâtico de los mejores. 

• La IA ha avanzado mas râpidamente en la década pasada debido al mayor uso del 
método cientifico en la experimentacion y comparacion de propuestas. 

• Los avances recientes logrados en el entendimiento de las bases teoricas de la in- 
teligencia han ido aparejados con las mejoras realizadas en la optimizaciôn de los 
sistemas reales. Los subcampos de la IA se han integrado mas y la IA ha encon- 
trado elementos comunes con otras disciplinas. 



Notas bibliogrâficas e histôricas 

El estatus metodologico de la inteligencia artificial se ha investigado en The Sciences of 
the Artificial, escrito por Herb Simon (1981), en el cual se analizan areas de investiga- 
cion interesadas en el desarrollo de artefactos complejos. Explica como la IA se puede 
ver como ciencia y matemâtica. Cohen (1995) proporciona una vision de la metodolo- 
gia experimental en el marco de la IA. Ford y Hayes (1995) presentan una révision critica 
de la utilidad de la Prueba de Turing. 

Artificial Intelligence: The Very Idea, de John Haugeland (1985), muestra una ver¬ 
sion amena de los problemas prâcticos y filosoficos de la IA. La ciencia cognitiva esta 
bien descrita en varios textos recientes (Johnson-Laird, 1988; Stillings et al., 1995; 
Thagard, 1996) y en la Encyclopedia of the Cognitive Sciences (Wilson y Keil, 
1999). Baker (1989) cubre la parte sintâctica de la lingüistica moderna, y Chierchia y 
McConnell-Ginet (1990) la semântica. Jurafsky y Martin (2000) revisan la lingüistica 
computacional. 

Los primeras trabajos en el campo de la IA se citan en Computers and Thought 
(1963), de Feigenbaum y Feldman, en Semantic Information Processing de Minsky, y 
en la sérié Machine Intelligence, editada por Donald Michie. Webber y Nilsson (1981) 
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y Luger (1995) han recogido una nutrida cantidad de artlculos influyentes. Los prime¬ 
ras artlculos sobre redes neuronales estân reunidos en Neurocomputing (Anderson y 
Rosenfeld, 1988). La Encyclopédie ofAI (Shapiro, 1992) contiene artlculos de investi- 
gacion sobre prâcticamente todos los temas de IA. Estos artlculos son muy utiles para 
iniciarse en las diversas areas présentes en la literatura cientlfica. 

El trabajo mas reciente se encuentra en las actas de las mayores conferencias de IA: 
la International Joint Conférence on AI (IJCAI), de carâcter bianual, la European Con¬ 
férence on AI (ECAI), de carâcter bianual, y la National Conférence on AI, conocida nor- 
malmente como AAAI por la organizacion que la patrocina. Las revistas cientlficas que 
presentan aspectos generales de la IA mas importantes son Artificial Intelligence, Com- 
putational Intelligence, IEEE Transactions on Pattern Analysis and Machine Intelligence, 
IEEE Intelligent Systems, y la revista electrônica Journal of Artificial Intelligence Re¬ 
search. Hay también numerosas revistas y conferencias especializadas en areas concre- 
tas, que se mencionarân en los capltulos apropiados. La asociaciones profesionales de 
IA mas importantes son la American Association for Artificial Intelligence (AAAI), la 
ACM Spécial Interest Group in Artificial Intelligence (SIGART), y la Society for Arti¬ 
ficial Intelligence and Simulation of Behaviour (AISB). La revista AI Magazine de 
AAAI contiene muchos artlculos de interés general y manuales, y su pagina Web, 
aaai.org contiene noticias e informacion de referencia. 



EJERCICIOS 

El proposito de los siguientes ejercicios es estimular la discusion, y algunos de ellos se 
podrlan utilizar como proyectos. Alternativamente, se podrla hacer un esfuerzo inicial 
para solucionarlos ahora, de forma que una vez se haya leldo todo el libro se puedan re- 
visar estos primeros intentos. 




1.1 Defina con sus propias palabras: (a) inteligencia, (b) inteligencia artificial, (c) agente. 

1.2 Lea el artlculo original de Turing sobre IA (Turing, 1950). En él se comentan al- 
gunas objeciones potenciales a su propuesta y a su prueba de inteligencia. /.Cuâlcs de 
estas objeciones tiene todavla validez? / Son validas sus refutaciones? /.Se le ocurren nue- 
vas objeciones a esta propuesta teniendo en cuenta los desarrollos realizados desde que 
se escribiô el artlculo? En el artlculo, Turing predijo que para el ano 2000 séria proba¬ 
ble que un computador tuviera un 30 por ciento de posibilidades de superar una Prueba 
de Turing dirigida por un evaluador inexperto con una duracion de cinco minutos. /.Con¬ 
sidéra razonable lo anterior en el mundo actual? /.Y en los prôximos 50 anos? 

1.3 Todos los anos se otorga el premio Loebner al programa que lo hace mejor en una 
Pmeba de Turing concreta. Investigue y haga un informe sobre el ültimo ganador del pre¬ 
mio Loebner. /.Qué técnica utiliza? /.Como ha hecho que progrese la investigaciôn en el 
campo de la IA? 


1.4 Hay clases de problemas bien conocidos que son intratables para los computadores, 
y otras clases sobre los cuales un computador no pueda tomar una decision. /.Quiere esto 
decir que es imposible lograr la IA? 
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1.5 Supôngase que se extiende Analogy, el programa de Evans, como para alcanzar 
una puntuacion de 200 en una prueba normal de cociente de inteligencia. /Quiere 
decir lo anterior que se ha creado un programa mas inteligente que un ser humano? 
Explfquese. 

1.6 /Como puede la introspeccion (révision de los pensamientos mtimos) ser inexac- 
ta? /Se puede estar equivocado sobre lo que se créé? Discütase. 

1.7 Consulte en la literatura existente sobre la IA si alguna de las siguientes tareas se 
puede efectuar con computadores: 

a) Jugar una partida de tenis de mesa (ping-pong) decentemente. 

b) Conducir un coche en el centra del Cairo. 

c) Comprar comestibles para una semana en el mercado. 

d) Comprar comestibles para una semana en la web. 

e ) Jugar una partida de bridge decentemente a nivel de competiciôn. 

f) Descubrir y demostrar nuevos teoremas matemâticos. 

g) Escribir intencionadamente una historia divertida. 

h) Ofrecer asesoria legal competente en un area determinada. 

i) Traducir inglés hablado al sueco hablado en tiempo real. 

j ) Realizar una operaciôn de cirugia compleja. 

En el caso de las tareas que no sean factibles de realizar en la actualidad, trate de des- 
cribir cuâles son las dificultades y calcule para cuândo se podrân superar. 

1.8 Algunos autores afirman que la percepcion y las habilidades motoras son la parte 
mas importante de la inteligencia y que las capacidades de «alto nivel» son mas bien pa¬ 
rasitas (simples anadidos a las capacidades bâsicas). Es un hecho que la mayor parte de 
la evolucion y que la mayor parte del cerebro se han concentrado en la percepcion y las 
habilidades motoras, en tanto la IA ha descubierto que tareas como juegos e inferencia 
logica resultan mas sencillas, en muchos sentidos, que percibir y actuar en el mundo real. 
/Consideraria usted que ha sido un error la concentracion tradicional de la IA en las ca¬ 
pacidades cognitivas de alto nivel? 

1.9 /Por qué la evolucion tiende a generar sistemas que actüan racionalmente? /Que 
objetivos deben intentar alcanzar estos sistemas? 

1.10 (- Son racionales las acciones reflejas (como retirar la mano de una estufa calien- 
te)? / Son inteligentes? 

1.11 «En realidad los computadores no son inteligentes, hacen solamente lo que le di- 
cen los programadores». /Es cierta la ültima aseveracion, e implica a la primera? 

1.12 «En realidad los animales no son inteligentes, hacen solamente lo que le dicen 
sus genes». /Es cierta la ültima aseveracion, e implica a la primera? 

1.13 «En realidad los animales, los humanos y los computadores no pueden ser inte¬ 
ligentes, ellos solo hacen lo que los âtomos que los forman les dictan siguiendo las leyes 
de la fisica». /Es cierta la ültima aseveracion, e implica a la primera? 













Agentes inteligentes 


Donde se discutirâ la naturaleza de los agentes idéales, sus diversos hâbitats y las 
formas de organizar los tipos de agentes existentes. 


El Capitulo 1 identifica el concepto de agente racional como central en la perspectiva 
de la inteligencia artificial que présenta este libro. Esta nociôn se concreta mas a lo lar¬ 
go de este capitulo. Se mostrarâ como el concepto de racionalidad se puede aplicar a una 
amplia variedad de agentes que operan en cualquier medio imaginable. En el libro, la 
idea es utilizar este concepto para desarrollar un pequeno conjunto de principios de di¬ 
seno que sirvan para construir agentes ütiles, sistemas que se puedan llamar razonable- 
mente inteligentes. 

Se comienza examinando los agentes, los medios en los que se desenvuelven, y la 
interaccion entre éstos. La observation de que algunos agentes se comportan mejor que 
otros nos lleva naturalmente a la idea de agente racional, aquel que se comporta tan bien 
como puede. La forma de actuar del agente dépende de la naturaleza del medio; algu¬ 
nos hâbitats son mas complejos que otros. Se proporciona una categorizacion cruda del 
medio y se muestra como las propiedades de un habitat influyen en el diseno de agen¬ 
tes adecuados para ese entorno. Se présenta un nümero de «esquemas» bâsicos para el 
diseno de agentes, a los que se darâ cuerpo a lo largo del libro. 


2.1 Agentes y su entorno 


medioambiente Un agente es cualquier cosa capaz de percibir su medioambiente con la ayuda de sen- 

sores y actuar en ese medio utilizando actuadores 1 . La Figura 2.1 ilustra esta idea sim- 


Se usa este término para indicar el elemento que reacciona a un estfmulo realizando una accion {N. del RT). 
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FUNCIÔN DEL AGENTE 



Figura 2.1 Los agentes interactüan con el medioambiente mediante sensores y efectores. 


pie. Un agente humano tiene ojos, oïdos y otros ôrganos sensoriales ademâs de manos, 
piernas, boca y otras partes del cuerpo para actuar. Un agente robot recibe pulsaciones 
del teclado, archivos de informaciôn y paquetes via red a modo de entradas sensoriales 
y actüa sobre el medio con mensajes en el monitor, escribiendo ficheros y enviando pa¬ 
quetes por la red. Se trabajarâ con la hipôtesis general de que cada agente puede perci- 
bir sus propias acciones (pero no siempre sus efectos). 

El término percepciôn se utiliza en este contexto para indicar que el agente puede 
recibir entradas en cualquier instante. La secuencia de percepciones de un agente 
refleja el historial completo de lo que el agente ha recibido. En general, un agente 
tomarâ una decision en un momento dado dependiendo de la secuencia compléta de per¬ 
cepciones hasta ese instante. Si se puede especificar qué decision tomarâ un agente para 
cada una de las posibles secuencias de percepciones, enfonces se habrâ explicado mas 
o menos todo lo que se puede decir de un agente. En términos matemâticos se puede de- 
cir que el comportamiento del agente viene dado por la funciôn del agente que proyecta 
una percepciôn dada en una acciôn. 

La funciôn que describe el comportamiento de un agente se puede presentar e n for¬ 
ma de tabla ; en la mayoria de los casos esta tabla séria muy grande (infinita a menos 
que se limite el tamano de la secuencia de percepciones que se quiera considerar). Dado 
un agente, con el que se quiera experimentar, se puede, en principio, constmir esta ta¬ 
bla teniendo en cuenta todas las secuencias de percepciôn y determinando qué acciôn 
lleva a cabo el agente en respuesta 2 . La tabla es, por supuesto, una caracterizaciôn ex- 
terna del agente. Inicialmente, la funciôn del agente para un agente artificial se imple- 


2 Si el agente selecciona la acciôn de manera aleatoria, entonces séria necesario probar cada secuencia mu- 
chas veces para identificar la probabilidad de cada acciôn. Se puede pensar que actuar de manera aleatoria 
es ridiculo, pero como se verâ posteriormente puede ser muy inteligente. 
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mentarâ mediante el programa del agente. Es importante diferenciar estas dos ideas. 
La funcion del agente es una descripcion matemâtica abstracta; el programa del agente 
es una implementacion compléta, que se ejecuta sobre la arquitectura del agente. 

Para ilustrar esta idea se utilizarâ un ejemplo muy simple, el mundo de la aspirado- 
ra presentado en la Figura 2.2. Este mundo es tan simple que se puede describir todo lo 
que en él sucede; es un mundo hecho a medida, para el que se pueden inventar otras va- 
riaciones. Este mundo en particular tiene solamente dos localizaciones: cuadncula A y 
B. La aspiradora puede percibir en qué cuadrante se encuentra y si hay suciedad en él. 
Puede elegir si se mueve hacia la izquierda, derecha, aspirar la suciedad o no hacer nada. 
Una funcion muy simple para el agente vendrfa dada por: si la cuadncula en la que 
se encuentra esta sucia, enfonces aspirar, de otra forma cambiar de cuadncula. Una 
muestra parcial de la funcion del agente representada en forma de tabla aparece en la 
Figura 2.3. Un programa de agente simple para esta funcion de agente se mostrarâ 
posteriormente en la Figura 2.8. 



Figura 2.2 El mundo de la aspiradora con dos localizaciones solamente. 


Secuencia de percepciones 

Acciôn 

[A, Limpio] 

Derecha 

[A, Sucio] 

Aspirar 

[B, Limpio] 

Izquierda 

[B, Sucio] 

Aspirar 

[A, Limpio ], [A, Limpio] 

Derecha 

[A, Limpio ], [A, Sucio\ 

Aspirar 

[A, Limpio ], [A, Limpio ], [A. Limpio] 

Derecha 

[A, Limpio], [A, Limpio], [A. Sucio] 

Aspirar 

Figura 2.3 Tabla parcial de una funcion de agente sencilla para el mundo de la aspiradora que se 

muestra en la Figura 2.2. 
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Revisando la Figura 2.3, se aprecia que se pueden définir varios agentes para el mundo 
de la aspiradora simplemente rellenando la columna de la derecha de formas distintas. 
La pregunta obvia, enfonces es: icuâl es la mejorforma de rellenar una tablai En otras 
palabras, ^qué hace que un agente sea bueno o malo, inteligente o estüpido? Estas pre- 
guntas se responden en la siguiente seccion. 

Antes de terminar esta seccion, es necesario remarcar que la nocion de agente es su- 
puestamente una herramienta para el anâlisis de sistemas, y no una caracterizacion ab- 
soluta que divida el mundo entre agentes y no agentes. Se puede ver una calculadora de 
mano como un agente que elige la acciôn de mostrar «4» en la pantalla, dada la secuencia 
de percepciones «2 + 2 =». Pero este anâlisis dificilmente puede mejorar nuestro 
conocimiento acerca de las calculadoras. 


2.2 Buen comportamiento: 

el concepto de racionalidad 


Un agente racional es aquel que hace lo correcto; en términos conceptuales, cada elemento 
de la tabla que define la funciôn del agente se tendrfa que rellenar correctamente. Obvia- 
mente, hacer lo correcto es mejor que hacer algo incorrecte), pero /,qué significa hacer lo 
correcto? Como primera aproximacion, se puede decir que lo correcto es aquello que per- 
mite al agente obtener un resultado mejor. Por tanto, se necesita determinar una forma de 
medir el éxito. Ello, junto a la descripciôn del entorno y de los sensores y actuadores del 
agente, proporcionarâ una especificacion compléta de la tarea que desempena el agente. 
Dicho esto, ahora es posible définir de forma mas précisa qué significa la racionalidad. 


Medidas de rendimiento 


MEDIDAS DE 
RENDIMIENTO 


Las medidas de rendimiento incluyen los criterios que determinan el éxito en el com¬ 
portamiento del agente. Cuando se sitüa un agente en un medio, éste généra una secuencia 
de acciones de acuerdo con las percepciones que recibe. Esta secuencia de acciones hace 
que su habitat pase por una secuencia de estados. Si la secuencia es la deseada, enfon¬ 
ces el agente habrâ actuado correctamente. Obviamente, no hay una ünica medida 
adecuada para todos los agentes. Se puede preguntar al agente por su opinion subjetiva 
acerca de su propia actuaciôn, pero muchos agentes serian incapaces de contestar, y otros 
podrian enganarse a si mismos 3 . Por tanto hay que insistir en la importancia de utilizar 
medidas de rendimiento objetivas, que normalmente determinarâ el disenador encarga- 
do de la construction del agente. 

Si retomamos el ejemplo de la aspiradora de la seccion anterior, se puede proponer 
utilizar como medida de rendimiento la cantidad de suciedad limpiada en un periodo de 


3 Los agentes humanos son conocidos en particular por su «acidez», hacen creer que no quieren algo des- 
pués de no haberlo podido conseguir, por ejemplo, «Ah bueno, de todas formas no queria ese estüpido Pre- 
mio Nobel». 
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ocho horas. Con agentes racionales, por supuesto, se obtiene lo que se demanda. Un agen¬ 
te racional puede maximizar su medida de rendimiento limpiando la suciedad, tirando 
la basura al suelo, limpiândola de nuevo, y as! sucesivamente. Una medida de rendimiento 
mas adecuada recompensaria al agente por tener el suelo limpio. Por ejemplo, podrfa ga- 
nar un punto por cada cuadricula limpia en cada perfodo de tiempo (quizâs habria que 
incluir algün tipo de penalizaciôn por la electricidad gastada y el ruido generado). Como 
régla general, es mejor diseiiar medidas de utilidad de acuerdo con lo que se quiere para 
el entorno, mâs que de acuerdo con como se créé que el agente debe comportarse. 

La selecciôn de la medida de rendimiento no es siempre fâcil. Por ejemplo, la no- 
ciôn de «suelo limpio» del pârrafo anterior esta basada en un nivel de limpieza medio a 
lo largo del tiempo. Ademâs, este nivel medio de limpieza se puede alcanzar de dos for¬ 
mas diferentes, llevando a cabo una limpieza médiocre pero continua o limpiando en pro- 
fundidad, pero realizando largos descansos. La forma mâs adecuada de hacerlo puede 
venir dada por la opinion de un encargado de la limpieza profesional, pero en realidad 
es una cuestion filosôfica profunda con fuertes implicaciones. / ; Qué es mejor, una vida 
temeraria con altos y bajos, o una existencia segura pero aburrida? Que es mejor, una 
economia en la que todo el mundo vive en un estado de moderada pobreza o una en la 
que algunos viven en la abundancia y otros son muy pobres? Estas cuestiones se dejan 
como ejercicio para los lectores diligentes. 

Racionalidad 

La racionalidad en un momento determinado dépende de cuatro factores: 

• La medida de rendimiento que define el criterio de éxito. 

• El conocimiento del medio en el que habita acumulado por el agente. 

• Las acciones que el agente puede llevar a cabo. 

• La secuencia de percepciones del agente hasta este momento. 

Esto nos lleva a la definiciôn de agente racional: 

En cada posible secuencia de percepciones, un agente racional deberâ emprender aque- 

lla acciôn que supuestamente maximice su medida de rendimiento, basândose en las evi- 

dencias aportadas por la secuencia de percepciones y en el conocimiento que el agente 

mantiene almacenado. 

Considerando que el agente aspiradora limpia una cuadricula si esta sucia y se mueve a 
la otra si no lo esta (ésta es la funciôn del agente que aparece en la tabla de la Figu¬ 
ra 2.3), ^se puede considerar racional? jDepende! Primero, se debe determinar cuâl es 
la medida de rendimiento, qué se conoce del entomo, y qué sensores y actuadores tiene 
el agente. Si asumimos que: 

• La medida de rendimiento premia con un punto al agente por cada recuadro lim¬ 
pio en un periodo de tiempo concreto, a lo largo de una «vida» de 1.000 periodos. 

• La «geografia» del medio se conoce a priori (Figura 2.2), pero que la distribucion 
de la suciedad y la localizacion inicial del agente no se conocen. Las cuadriculas 
se mantienen limpias y aspirando se limpia la cuadricula en que se encuentre el 
agente. Las acciones Izquierda y Derecha mueven al agente hacia la izquierda y 
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derecha excepto en el caso de que ello pueda llevar al agente fuera del recinto, en 
este caso el agente permanece donde se encuentra. 

• Las ünicas acciones permitidas son Izquierda, Derecha, Aspirar y NoOp (no ha- 
cer nada). 

• El agente percibe correctamente su localizacion y si esta localizacion contiene su- 
ciedad. 

Puede afirmarse que bajo estas circunstancias el agente es verdaderamente racional; el 
rendimiento que se espera de este agente es por lo menos tan alto como el de cualquier 
otro agente. El Ejercicio 2.4 pide que se pruebe este hecho. 

Fâcilmente se puede observar que el agente puede resultar irracional en circunstan¬ 
cias diferentes. Por ejemplo, cuando toda la suciedad se haya eliminado el agente osci- 
larâ innecesariamente hacia delante y atrâs; si la medida de rendimiento incluye una pe- 
nalizacion de un punto por cada movimiento hacia la derecha e izquierda, la respuesta 
del agente sera pobre. Un agente mas eficiente no harâ nada si esta seguro de que todas 
las cuadrfculas estân limpias. Si una cuadricula se ensucia de nuevo, el agente debe iden- 
tificarlo en una de sus revisiones ocasionales y limpiarla. Si no se conoce la geografia 
del entorno, el agente tendra que explorarla y no quedarse parado en las cuadrfculas A 
y B. El Ejercicio 2.4 pide que se disenen agentes para estos casos. 


Omnisciencia, aprendizaje y autonomfa 


OIYINISCIENCIA 


Es necesario tener cuidado al distinguir entre racionalidad y omnisciencia. Un agente 
omnisciente conoce el resultado de su accion y actüa de acuerdo con él; sin embargo, 
en realidad la omnisciencia no es posible. Considerando el siguiente ejemplo: estoy pa- 
seando por los Campos Eliseos y veo un amigo al otro lado de la calle. No hay trâfico 
alrededor y no tengo ningün compromiso, enfonces, actuando racionalmente, comenzaria 
a cruzar la calle. Al mismo tiempo, a 33.000 pies de altura, se desprende la puerta de un 
avion 4 , y antes de que termine de cruzar al otro lado de la calle me encuentro aplastado. 
/ Fuc irracional cruzar la calle? Séria de extranar que en mi nota necrologica apareciera 
«Un idiota intentando cruzar la calle». 

Este ejemplo muestra que la racionalidad no es lo mismo que la perfeccion. La ra¬ 
cionalidad maximiza el rendimiento esperado, mientras la perfeccion maximiza el resul¬ 
tado real. Alejarse de la necesidad de la perfeccion no es solo cuestion de hacer justicia 
con los agentes. El asunto es que résulta imposible disenar un agente que siempre lleve 
a cabo, de forma sucesiva, las mejores acciones después de un acontecimiento, a menos 
que se haya mejorado el rendimiento de las bolas de cristal o las mâquinas de tiempo. 

La definicion propuesta de racionalidad no requiere omnisciencia, ya que la eleccion 
racional dépende solo de la secuencia de percepciôn hasta la fecha. Es necesario ase- 
gurase de no haber permitido, por descuido, que el agente se dedique decididamente a 
llevar a cabo acciones poco inteligentes. Por ejemplo, si el agente no mirase a ambos la- 
dos de la calle antes de cruzar una calle muy concurrida, enfonces su secuencia de per- 


4 Véase N. Henderson, «New door latches urged for Boeing 747 jumbo jets» (es urgente dotar de nuevas 
cerraduras a las puertas de los Boeing jumbo 747), Washington Post, 24 de agosto de 1989. 
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cepciôn no le indicaria que se esta acercando un gran camion a gran velocidad. / ; La 
definiciôn de racionalidad nos esta indicando que esta bien cruzar la calle? jTodo lo con¬ 
trario! Primero, no séria racional cruzar la calle solo teniendo esta secuencia de per- 
cepciones incompleta: el riesgo de accidente al cruzarla sin mirar es demasiado grande. 
Segundo, un agente racional debe elegir la acciôn de «mirar» antes de intentar cruzar la 
calle, ya que el mirar maximiza el rendimiento esperado. Llevar a cabo acciones con la 
intenciôn de modifiear percepciones futuras, en ocasiones proceso denominado reco- 
pilaciôn de informaciôn, es una parte importante de la racionalidad y se comenta en 
profundidad en el Capitulo 16. Un segundo ejemplo de recopilacion de informaciôn lo 
proporciona la exploraciôn que debe llevar a cabo el agente aspiradora en un medio ini- 
cialmente desconocido. 

La definiciôn propuesta implica que el agente racional no solo recopile informaciôn, 
sino que aprenda lo mâximo posible de lo que esta percibiendo. La configuraciôn ini- 
cial del agente puede reflejar un conocimiento preliminar del entorno, pero a medida que 
el agente adquiere experiencia éste puede modificarse y aumentar. Hay casos excepcio- 
nales en los que se conoce totalmente el entorno a priori. En estos casos, el agente no 
necesita percibir y aprender; simplemente actüa de forma correcta. Por supuesto, estos 
agentes son muy fragiles. Considérese el caso del humilde escarabajo estercolero. Des- 
pués de cavar su nido y depositar en él su huevos, tomô una bola de estiércol de una pila 
cercana para tapar su entrada. Si durante el trayecto se le quita la bola, el escarabajo con- 
tinuarâ su recorrido y harâ como si estuviera tapando la entrada del nido, sin tener la bola 
y sin darse cuanta de ello. La evoluciôn incorporé una suposiciôn en la conducta del 
escarabajo, y cuando se viola, el resultado es un comportamiento insatisfactorio. La avis- 
pa cavadora es un poco mas inteligente. La avispa hembra cavarâ una madriguera, saldrâ 
de ella, picarâ a una oruga y la llevarâ a su madriguera, se introducirâ en la madriguera 
para comprobar que todo esta bien, arrastrarâ la oruga hasta el fondo y pondra sus 
huevos. La oruga servira como fuente de alimento cuando los huevos se abran. Hasta 
ahora todo bien, pero si un entomôlogo desplaza la oruga unos centimetros fuera cuan¬ 
do la avispa esta revisando la situaciôn, ésta volverâ a la etapa de «arrastre» que figura 
en su plan, y continuarâ con el resto del plan sin modificaciôn alguna, incluso después 
de que se intervenga para desplazar la oruga. La avispa cavadora no es capaz de apren¬ 
der que su plan innato esta fallando, y por tanto no lo cambiarâ. 

Los agentes con éxito dividen las tareas de calcular la funciôn del agente en très 
periodos diferentes: cuando se esta disenando el agente, y estân los disenadores encar- 
gados de realizar algunos de estos câlculos; cuando esta pensando en la siguiente opera- 
ciôn, el agente realiza mas câlculos; y cuando esta aprendiendo de la experiencia, el agente 
lleva a cabo mas câlculos para decidir como modificar su forma de comportarse. 

Se dice que un agente carece de autonomia cuando se apoya mâs en el conocimiento 
inicial que le proporciona su disenador que en sus propias percepciones. Un agente ra¬ 
cional debe ser autônomo, debe saber aprender a determinar como tiene que compensar 
el conocimiento incompleto o parcial inicial. Por ejemplo, el agente aspiradora que 
aprenda a prever dônde y cuândo aparecerâ suciedad adicional lo harâ mejor que otro 
que no aprenda. En la prâctica, pocas veces se necesita autonomia compléta desde el 
comienzo: cuando el agente haya tenido poca o ninguna experiencia, tendrâ que actuar 
de forma aleatoria a menos que el disenador le haya proporcionado ayuda. Asi, de la 
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misma forma que la evoluciôn proporciona a los animales solo los reactivos necesarios 
para que puedan sobrevivir lo suficiente para aprender por ellos mismos, séria razona- 
ble proporcionar a los agentes que disponen de inteligencia artificial un conocimiento 
inicial, asi como de la capacidad de aprendizaje. Después de las suficientes experien- 
cias interaccionando con el entorno, el comportamiento del agente racional sera efecti- 
vamente independiente del conocimiento que poseia inicialmente. De ahi, que la incor- 
poraciôn del aprendizaje facilite el diseno de agentes racionales individuales que tendrân 
éxito en una gran cantidad de medios. 


La naturaleza del entorno 


Ahora que se tiene una definiciôn de racionalidad, se esta casi preparado para pensar en 
la construccion de agentes racionales. Primero, sin embargo, hay que centrarse en los 
entornos de trabajo, que son esencialmente los «problemas» para los que los agentes 
racionales son las «soluciones». Para ello se comienza mostrando como especificar un 
entorno de trabajo, ilustrando el proceso con varios ejemplos. Posteriormente se mos- 
trarâ que el entorno de trabajo ofrece diferentes posibilidades, de forma que cada una 
de las posibilidades influyen directamente en el diseno del programa del agente. 

Especificaciôn del entorno de trabajo 

En la discusiôn de la racionalidad de un agente aspiradora simple, hubo que especificar 
las medidas de rendimiento, el entorno, y los actuadores y sensores del agente. Todo ello 
forma lo que se llama el entorno de trabajo, para cuya denominaciôn se utiliza el 
acrônimo REAS (Rendimiento, Entorno, Actuadores, Sensores). En el diseno de un agen¬ 
te, el primer paso debe ser siempre especificar el entorno de trabajo de la forma mas 
compléta posible. 

El mundo de la aspiradora fue un ejemplo simple; considérese ahora un problema 
mas complejo: un taxista automâtico. Este ejemplo se utilizarâ a lo largo del capitulo. 
Antes de alarmar al lector, conviene aclarar que en la actualidad la construccion de un 
taxi automatizado esta fuera del alcance de la tecnologia actual. Véase en la pagina 31 
la descripcion de un robot conductor que ya existe en la actualidad, o lea las actas de la 
conferencia Intelligent Transportation Systems. La tarea de conducir un automôvil, en 
su totalidad, es extremadamente ilimitada. No hay limite en cuanto al numéro de nue- 
vas combinaciones de circunstancias que pueden surgir (por esta razôn se eligiô esta ac- 
tividad en la présente discusiôn). La Figura 2.4 résumé la descripcion REAS para el en- 
tomo de trabajo del taxi. El prôximo pârrafo explica cada uno de sus elementos en mas 
detalle. 

Primero, / cuâl es el entorno de trabajo en el que el taxista automâtico aspira a con¬ 
ducir? Dentro de las cualidades deseables que deberia tener se incluyen el que llegue 
al destino correcto; que minimice el consumo de combustible; que minimice el tiem- 
po de viaje y/o coste; que minimice el nümero de infracciones de trâfico y de moles- 
tias a otros conductores; que maximice la seguridad, la comodidad del pasajero y el 
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Tipo de agente 

Medidas de 
rendimiento 

Entorno 

Actuadores 

Sensores 

Taxista 

Seguro, râpido, 
legal, viaje 
confortable, 
maximizaciôn 
del benefteio 

Carreteras, 
otro trâfico, 
peatones, 
clientes 

Direccion, 
acelerador, 
freno, senal, 
bocina, 
visualizador 

Câmaras, sonar, 
velocimetro, 

GPS, taeômetro, 
visualizador de 
la aceleraciôn, 
sensores del 
motor, teclado 

Figura 2.4 Descripciôn REAS del entorno de trabajo de un taxista automâtico. 


bénéficie». Obviamente, alguno de estos objetivos entran en conflicto por lo que habrâ 
que llegar a acuerdos. 

Siguiente, / cual es el entorno en el que se encontrarâ el taxi? Cualquier taxista debe 
estar preparado para circular por distintas carreteras, desde caminos rurales y calles ur- 
banas hasta autopistas de 12 carriles. En las carreteras se pueden encontrar con trâfico, 
peatones, animales, obras, coches de policia, charcos y bâches. El taxista también tie- 
ne que comunicarse tanto con pasajeros reales como potenciales. Hay también elecciones 
opcionales. El taxi puede operar en California del Sur, donde la nieve es raramente un 
problema, o en Alaska, donde raramente no lo es. Puede conducir siempre por la de- 
recha, o puede ser lo suficientemente flexible como para que circule por la izquierda 
cuando se encuentre en el Reino Unido o en Japon. Obviamente, cuanto mas restringi- 
do esté el entorno, mas fâcil sera el problema del diseno. 

Los actuadores disponibles en un taxi automâtico serân mas o menos los mismos que 
los que tiene a su alcance un conductor humano: el control del motor a través del acele- 
rador y control sobre la direccion y los frenos. Ademâs, necesitarâ tener una pantalla de 
visualizacion o un sintetizador de voz para responder a los pasajeros, y quizâs algün me- 
canismo para comunicarse, educadamente o de otra forma, con otros vehiculos. 

Para alcanzar sus objetivos en el entorno en el que circula, el taxi necesita saber donde 
esta, qué otros elementos estân en la carretera, y a qué velocidad circula. Sus sensores 
bâsicos deben, por tanto, incluir una o mas câmaras de télévision dirigidas, un veloci- 
metro y un taeômetro. Para controlar el vehiculo adecuadamente, especialmente en las 
curvas, debe tener un acelerador; debe conocer el estado mecânico del vehiculo, de forma 
que necesitarâ sensores que controlen el motor y el sistema eléctrico. Debe tener 
instrumentes que no estân disponibles para un conductor medio: un sistema de posicio- 
namiento global via satélite (GPS) para proporcionarle informaciôn exacta sobre su 
posicion con respecta a un mapa electronico, y sensores infrarrojos o sonares para 
detectar las distancias con respecta a otros coches y obstâculos. Finalmente, necesitarâ 
un teclado o microfono para que el pasajero le indique su destino. 

La Figura 2.5 muestra un esquema con los elementos REAS bâsicos para diferentes 
clases de agentes adicionales. Mâs ejemplos aparecerân en el Ejercicio 2.5. Puede 
sorprender a algunos lectores que se incluya en la lista de tipos de agente algunos pro- 
gramas que operan en la totalidad del entorno artificial definido por las entradas del 
teclado y los caractères impresos en el monitor. «Seguramente», nos podamos pregun- 
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Tipo de agente 

Medidas de 
rendimiento 

Entorno 

Actuadores 

Sensores 

Sistema de 
diagnostico 
médico 

Pacientes sanos, 
reducir costes, 
demandas 

Pacientes, 

hospital, 

Personal 

Visualizar 

preguntas, 

pruebas, 

diagnôsticos, 

tratamientos, 

casos 

Teclado para 
la entrada de 
smtomas, 
conclusiones, 
respuestas de 
pacientes 

Sistema de 
anâlisis de 
imàgenes de 
satélites 

Categorizacion 
de imagen 
correcta 

Conexiôn con el 
satélite en ôrbita 

Visualizar la 
categorizacion 
de una escena 

Matriz de pixels 
de colores 

Robot para la 
seleccion de 
componentes 

Porcentaje de 
componentes 
clasificados en 
los cubos 

correctos 

Cinta 

transportadora 

con 

componentes, 

cubos 

Brazo y mano 
articulados 

Câmara, sensor 
angular 

Controlador de 
una refineria 

Maximizar la 
pureza, 
producciôn y 
seguridad 

Refineria, 

operadores 

Vâlvulas, 

bombas, 

calentadores, 

monitores 

Temperatura, 

presiôn, 

sensores 

quimicos 

Tutor de inglés 
interactivo 

Maximizar la 
puntuaciôn de 
los estudiantes 
en los exâmenes 

Conjunto de 
estudiantes, 
agencia 
examinadora 

Visualizar los 
ejercicios, 
sugerencias, 
correcciones 

Teclado de 
entrada 

Figura 2.5 Ejemplos de tipos de agentes y sus descripciones REAS. 


tar, «/ este no es un entorno real, verdad?». De hecho, lo que importa no es la distincion 
entre un medio «real» y «artificial», sino la complejidad de la relacion entre el com- 
portamiento del agente, la secuencia de percepciôn generada por el medio y la medida 
de rendimiento. Algunos entornos «reales» son de hecho bastante simples. Por ejemplo, 
un robot disenado para inspeccionar componentes segün pasan por una cinta transpor- 
tadora puede hacer uso de varias suposiciones simples: que la cinta siempre estarâ 
iluminada, que conocerâ todos los componentes que circulen por la cinta, y que hay 
solamente dos acciones (aceptar y rechazar). 

software En contraste, existen algunos agentes software (o robots software o softbots) en en¬ 

tornos ricos y prâcticamente ilimitados. Imagine un softbot disenado para pilotar el si- 
mulador de vuelo de un gran avion comercial. El simulador constituye un medio muy 
detallado y complejo que incluye a otros aviones y operaciones de tierra, y el agente 
software debe elegir, en tiempo real, una de entre un amplio abanico de posibilidades. 
O imagine un robot disenado para que revise fuentes de informacion en Internet y para 
que muestre aquellas que sean interesantes a sus clientes. Para lograrlo, deberâ poseer 
cierta habilidad en el procesamiento de lenguaje natural, tendra que aprender qué es lo 
que le interesa a cada cliente, y tendra que ser capaz de cambiar sus planes dinâmica- 














AGENTES INTELIGENTES 47 


TOTALMENTE 

OBSEVABLE 


DETERMINISTA 

ESTOCÂSTICO 


mente, por ejemplo, cuando se interrumpa la conexiôn con una fuente de informaciôn o 
cuando aparezca una nueva. Internet es un medio cuya complejidad rivaliza con la del 
mundo fisico y entre cuyos habitantes se pueden incluir muchos agentes artificiales. 


Propiedades de los entornos de trabajo 

El rango de los entornos de trabajo en los que se utilizan técnicas de IA es obviamente 
muy grande. Sin embargo, se puede identificar un pequeno numéro de dimensiones en 
las que categorizar estos entornos. Estas dimensiones determinan, hasta cierto punto, el 
diseno mas adecuado para el agente y la utilizaciôn de cada una de las familias principales 
de técnicas en la implementaciôn del agente. Primero se enumeran la dimensiones, y 
después se analizan varios entornos de trabajo para ilustrar estas ideas. Las defmiciones 
dadas son informales; capitulos posteriores proporcionan definiciones mas précisas y 
ejemplos de cada tipo de entorno. 

• Totalmente observable vs. parcialmente observable. 

Si los sensores del agente le proporcionan acceso al estado completo del medio 
en cada momento, enfonces se dice que el entorno de trabajo es totalmente obser¬ 
vable 5 . Un entorno de trabajo es, efectivamente, totalmente observable si los sen¬ 
sores detectan todos los aspectos que son relevantes en la toma de decisiones; la 
relevancia, en cada momento, dépende de las medidas de rendimiento. Entornos 
totalmente observables son convenientes ya que el agente no necesita mantener nin- 
gün estado intemo para saber qué sucede en el mundo. Un entorno puede ser par¬ 
cialmente observable debido al ruido y a la existencia de sensores poco exactos o 
porque los sensores no reciben informaciôn de parte del sistema, por ejemplo, un 
agente aspiradora con solo un sensor de suciedad local no puede saber si hay su- 
ciedad en la otra cuadricula, y un taxi automatizado no pude saber qué estân pen- 
sando otros conductores. 

• Determinista vs. estocâstico. 

Si el siguiente estado del medio esta totalmente determinado por el estado actual 
y la acciôn ejecutada por el agente, entonces se dice que el entorno es determinista; 
de otra forma es estocâstico. En principio, un agente no se tiene que preocupar de 
la incertidumbre en un medio totalmente observable y determinista. Sin embargo, 
si el medio es parcialmente observable entonces puede parecer estocâstico. Esto 
es particularmente cierto si se trata de un medio complejo, haciendo dificil el man¬ 
tener constancia de todos las aspectos observados. Asf, a menudo es mejor pen- 
sar en entornos deterministas o estocâsticos desde el punto de vista del agente. El 
agente taxi es claramente estocâstico en este sentido, ya que no se puede predecir 
el comportamiento del trâfico exactamente; mâs aün, una rueda se puede reventar 
y un motor se puede gripar sin previo aviso. El mundo de la aspiradora es deter- 


5 La primera edicion de este libre utiliza los términos accesible e inaccesible en vez de total y parcialmen¬ 
te observable; no determinista en vez de estocâstico; y no episôdico en vez de secuencial. La nueva ter- 
minologfa es mâs consistente con el uso establecido. 
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minista, como ya se describiô, pero las variaciones pueden incluir elementos es- 
tocâsticos como la apariciôn de suciedad aleatoria y un mecanismo de succion 
ineficiente (Ejercicio 2.12). Si el medio es determinista, excepto para las acciones 
de otros agentes, decimos que el medio es estratégico. 

• Episôdico vs. secuencial 6 . 

En un entomo de trabajo episôdico, la experiencia del agente se divide en episo- 
dios atômicos. Cada episodio consiste en la percepciôn del agente y la realizaciôn 
de una ünica acciôn posterior. Es muy importante tener en cuenta que el siguien- 
te episodio no dépende de las acciones que se realizaron en episodios previos. En 
los medios episôdicos la elecciôn de la acciôn en cada episodio dépende solo del 
episodio en si mismo. Muchas tareas de clasificaciôn son episôdicas. Por ejem- 
plo, un agente que tenga que seleccionar partes defectuosas en una cadena de mon- 
taje basa sus decisiones en la parte que esta evaluando en cada momento, sin tener 
en cuenta decisiones previas; mas aün, a la decision présente no le afecta el que 
la prôxima fase sea defectuosa. En entornos secuenciales, por otro lado, la deci¬ 
sion présente puede afectar a decisiones futuras. El ajedrez y el taxista son 
secuenciales: en ambos casos, las acciones que se realizan a corto plazo pueden 
tener consecuencias a largo plazo. Los medios episôdicos son mas simples que los 
secuenciales porque la gente no necesita pensar con tiempo. 

• Estâtico vs. dinâmico. 

Si el entorno puede cambiar cuando el agente esta deliberando, entonces se dice 
que el entorno es dinâmico para el agente; de otra forma se dice que es estâtico. 
Los medios estâticos son fâciles de tratar ya que el agente no necesita estar 
pendiente del mundo mientras estâ tomando una decision sobre una acciôn, ni 
necesita preocuparse sobre el paso del tiempo. Los medios dinâmicos, por el con¬ 
trario, estân preguntando continuamente al agente qué quiere hacer; si no se ha 
decidido aün, entonces se entiende que ha tomado la decision de no hacer nada. 
Si el entomo no cambia con el paso del tiempo, pero el rendimiento del agente cam¬ 
bia, entonces se dice que el medio es semidinâmico. El taxista es claramente 
dinâmico: tanto los otros coches como el taxi se estân moviendo mientras el 
algoritmo que guia la conducciôn indica qué es lo prôximo a hacer. El ajedrez, cuan¬ 
do se juega con un reloj, es semideterminista. Los crucigramas son estâticos. 

• Discreto vs. continuo. 

La distinciôn entre discreto y continuo se puede aplicar al estado del medio, a la 
forma en la que se maneja el tiempo y a las percepciones y acciones del agente. 
Por ejemplo, un medio con estados discretos como el del juego del ajedrez tiene 
un nümero finito de estados distintos. El ajedrez tiene un conjunto discreto de 
percepciones y acciones. El taxista conduciendo define un estado continuo y un 
problema de tiempo continuo: la velocidad y la ubicaciôn del taxi y de los otros 
vehiculos pasan por un rango de valores continuos de forma suave a lo largo del 


6 La palabra «secuencial» se utiliza también en el campo de la informâtica como antônimo de «paralelo». 
Los dos signiflcados no estân relacionados. 
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tiempo. Las conduccion del taxista es también continua (ângulo de direccion, etc.). 
Las imâgenes captadas por câmaras digitales son discretas, en sentido estricto, pero 
se tratan tipicamente como representaciones continuas de localizaciones e inten- 
sidades variables. 

• Agente individual vs. multiagente. 

La distincion entre el entorno de un agente individual y el de un sistema mul¬ 
tiagente puede parecer suficientemente simple. Por ejemplo, un agente resol- 
viendo un crucigrama por si mismo esta claramente en un entorno de agente 
individual, mientras que un agente que juega al ajedrez esta en un entorno con 
dos agentes. Sin embargo hay algunas diferencias sutiles. Primero, se ha descrito 
que una entidad puede percibirse como un agente, pero no se ha explicado qué 
entidades se deben considerar agentes. / Ticnc el agente A (por ejemplo el agen¬ 
te taxista) que tratar un objeto B (otro vehiculo) como un agente, o puede tra- 
tarse méramente como un objeto con un comportamiento estocâstico, como las 
olas de la play a o las hojas que mueve el viento? La distincion clave esta en iden- 
tificar si el comportamiento de B esta mejor descrito por la maximizacion de una 
medida de rendimiento cuyo valor dépende del comportamiento de A. Por 
ejemplo, en el ajedrez, la entidad oponente B intenta maximizar su medida de 
rendimiento, la cual, segün las réglas, minimiza la medida de rendimiento del 
agente A. Por tanto, el ajedrez es un entorno multiagente competitivo. Por otro 
lado, en el medio definido por el taxista circulando, el evitar colisiones maxi- 
miza la medida de rendimiento de todos los agentes, asf pues es un entorno mul¬ 
tiagente parcialmente cooperativo. Es también parcialmente competitivo ya 
que, por ejemplo, solo un coche puede ocupar una plaza de aparcamiento. Los 
problemas en el diseno de agentes que aparecen en los entornos multiagente son 
a menudo bastante diferentes de los que aparecen en entornos con un ünico agen¬ 
te; por ejemplo, la comunicaciôn a menudo emerge como un comportamiento 
racional en entornos multiagente; en algunos entornos competitivos parcial¬ 
mente observables el comportamiento estocâstico es racional ya que évita las 
dificultades de la predicciôn. 

Como es de esperar, el caso mas complejo es el parcialmente observable, estocâstico, 
secuencial, dinâmico, continuo y multiagente. De hecho, suele suceder que la mayoria 
de las situaciones reales son tan complejas que séria discutible clasificarlas como rcal¬ 
me nte deterministas. A efectos prâcticos, se deben tratar como estocâsticas. Un taxista 
circulando es un problema, complejo a todos los efectos. 

La Figura 2.6 présenta las propiedades de un nümero de entornos familiares. Hay 
que tener en cuenta que las respuestas no estân siempre preparadas de antemano. Por 
ejemplo, se ha presentado el ajedrez como totalmente observable; en sentido estricto, esto 
es falso porque ciertas réglas que afectan al movimiento de las torres, el enroque y a mo- 
vimientos por repeticiôn requieren que se recuerden algunos hechos sobre la historia del 
juego que no estân reflejados en el estado del tablero. Estas excepciones, por supuesto, 
no tienen importancia si las comparamos con aquellas que aparecen en el caso del 
taxista, el tutor de inglés, o el sistema de diagnôstico médico. 
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Entornos de trabajo 

Observable 

Determinista 

Episôdico 

Estâtico 

Discreto 

Agentes 

Crucigrama 

Ajedrez con reloj 

Totalmente 

Totalmente 

Determinista 

Estratégico 

Secuencial 

Secuencial 

Estâtico 

Semi 

Discreto 

Discreto 

Individual 

Multi 

Poker 

Backgammon 

Parcialmente 

Totalmente 

Estratégico 

Estocâstico 

Secuencial 

Secuencial 

Estâtico 

Estâtico 

Discreto 

Discreto 

Multi 

Multi 

Taxi circulando 

Diagnôstico médico 

Parcialmente 

Parcialmente 

Estocâstico 

Estocâstico 

Secuencial 

Secuencial 

Dinâmico 

Dinâmico 

Continuo 

Continuo 

Multi 

Individual 

Anâlisis de imagen 

Robot clasificador 

Totalmente 

Parcialmente 

Determinista 

Estocâstico 

Episôdico 

Episôdico 

Semi 

Dinâmico 

Continuo 

Continuo 

Individual 

Individual 

Controlador de refineria 
Tutor interactivo de inglés 

Parcialmente 

Parcialmente 

Estocâstico 

Estocâstico 

Secuencial 

Secuencial 

Dinâmico 

Dinâmico 

Continuo 

Discreto 

Individual 

Multi 

Figura 2.6 Ejemplos de entornos de trabajo y sus caracteristicas. 


Otras entradas de la tabla dependen de como se haya definido el entorno de trabajo. 
Se ha definido el sistema de diagnôstico médico como un ünico agente porque no es 
rentable modelar el proceso de la enfermedad en un paciente como un agente; pero incluso 
el sistema de diagnôstico médico podria necesitar tener en cuenta a pacientes récalci¬ 
trantes y empleados escépticos, de forma que el entorno podria tener un aspecto mul- 
tiagente. Mas aün, el diagnôstico médico es episôdico si se concibe como proporcionar 
un diagnôstico a partir de una lista de sintomas; el problema es secuencial si ello trae 
consigo la propuesta de una sérié de pruebas, un proceso de evaluaciôn a lo largo del 
tratamiento, y demâs aspectos. Muchos entornos son, también, episôdicos si se obser- 
van desde un nivel de abstracciôn mas alto que el de las acciones individuales del agen¬ 
te. Por ejemplo, un torneo de ajedrez consiste en una secuencia de juegos; cada juego 
es un episodio, pero (a la larga) la contribuciôn de los movimientos en una partida al re- 
sultado general que obtenga el agente no se ve afectada por los movimientos realizados 
en la partida anterior. Por otro lado, las decisiones tomadas en una partida concreta son 
ciertamente de tipo secuencial. 

El repositorio de côdigo asociado a este libro (aima.cs.berkeley.edu) incluye la 
implementaciôn de un nümero de entornos, junto con un simulador de entornos de pro- 
pôsito general que sitüa uno o mas agentes en un entorno simulado, observa su com- 
portamiento a lo largo del tiempo, y los evalüa de acuerdo con una medida de rendimiento 
dada. Estos experimentos no solo se han realizado para un medio concreto, sino que se 
clase de entornos han realizado con varios problemas obtenidos de una clase de entornos. Por ejemplo, 
para evaluar un taxista en un trâfico simulado, séria interesante hacer varias simulacio- 
nes con diferente tipo de trâfico, claridad y condiciones atmosféricas. Si se disena un 
agente para un escenario concreto, se pueden sacar ventajas de las propiedades especi- 
ficas de ese caso en particular, pero puede no identificarse un buen diseno para condu- 
cir en general. Por esta razôn, el repositorio de côdigo también incluye un generador 
de entornos para cada clase de medios que selecciona habitats particulares (con ciertas 
posibilidades) en los que ejecutar los agentes. Por ejemplo, el generador de un entorno 


GENERADOR 
DE ENTORNOS 
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para un agente aspiradora inicializa el patron de suciedad y la localizaciôn del agente 
de forma aleatoria. Después, es interesante evaluar la eficacia media del agente en el con¬ 
texte de la clase del entorno. Un agente racional para una clase de entorno maximiza el 
rendimiento medio. Los Ejercicios del 2.7 al 2.12 guian el proceso de desarrollo de una 
clase de entornos y la evaluaciôn de varios agentes. 


2.4 Estructura de los agentes 


Hasta este momento se ha hablado de los agentes describiendo su conducta, la acciôn 
que se realiza después de una secuencia de percepciones dada. Ahora, se trata de cen- 
trarse en el nücleo del problema y hablar sobre como trabajan intemamente. El trabajo 
del agente de la IA es disenar el programa del agente que implemente la funcion del agente que 

proyecta las percepciones en las acciones. Se asume que este programa se ejecutarâ en 
arquitectura algün tipo de computador con sensores fisicos y actuadores, lo cual se conoce como 

arquitectura: 

Agente = arquitectura + programa 

Obviamente, el programa que se elija tiene que ser apropiado para la arquitectura. Si el 
programa tiene que recomendar acciones como Caminar, la arquitectura tiene que tener 
piernas. La arquitectura puede ser un PC comün, o puede ser un coche robotizado con 
varios computadores, câmaras, y otros sensores a bordo. En general, la arquitectura hace 
que las percepciones de los sensores estén disponibles para el programa, ejecuta los pro- 
gramas, y se encarga de que los actuadores pongan en marcha las acciones generadas. 
La mayor parte de este libro se centra en el diseno de programas para agentes, aunque 
los Capitulos 24 y 25 tratan sobre sensores y actuadores. 


Programas de los agentes 

Los programas de los agentes que se describen en este libro tienen la misma estructura: 
reciben las percepciones actuales como entradas de los sensores y devuelven una acciôn 
a los actuadores 7 . Hay que tener en cuenta la diferencia entre los programas de los agen¬ 
tes, que toman la percepciôn actual como entrada, y la funcion del agente, que recibe la 
percepciôn histôrica compléta. Los programas de los agentes reciben solo la percepciôn 
actual como entrada porque no hay nada mas disponible en el entorno; si las acciones 
del agente dependen de la secuencia compléta de percepciones, el agente tendria que re- 
cordar las percepciones. 

Los programas de los agente se describirân con la ayuda de un sencillo lenguaje pseu- 
docôdigo que se define en el Apéndice B. El repositorio de côdigo disponible en Inter- 


7 Hay otras posibilidades para définir la estructura del programa para el agente; por ejemplo, los programas 
para agentes pueden ser subrutinas que se ejecuten asincronicamente en el entorno de trabajo. Cada una de 
estas subrutinas tienen un puerto de entrada y salida y consisten en un bucle que interpréta las entradas del 
puerto como percepciones y escribe acciones en el puerto de salida. 
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funciôn Agente-Dirigido-Mediante TABLA(percepcion) devuelve una accion 
variables estâticas: percepciones, una secuencia, vacia inicialmente 

tabla, una tabla de acciones, indexada por las secuencias de 
percepciones, totalmente definida inicialmente 

anadir la perception al final de las percepciones 
action <— CoNSULTA(percepciones, tabla) 
devolver action 


Figura 2.7 El programa Agente-Dirigido-Mediante tabla se invoca con cada nueva perception 
y devuelve una accion en cada momento. Almacena la secuencia de percepciones utilizando su pro- 
pia estructura de datos privada. 


net contiene implementaciones en lenguajes de programaciôn reales. Por ejemplo, la 
Figura 2.7 muestra un programa de agente muy sencillo que almacena la secuencia de 
percepciones y después las compara con las secuencias almacenadas en la tabla de ac¬ 
ciones para decidir qué hacer. La tabla représenta explicitamente la funciôn que define 
el programa del agente. Para construit' un agente racional de esta forma, los disenado- 
res deben realizar una tabla que contenga las acciones apropiadas para cada secuencia 
posible de percepciones. 

Intuitivamente se puede apreciar por qué la propuesta de direcciôn-mediante-tabla 
para la construction de agentes esta condenada al fracaso. Sea P el conjunto de posibles 
percepciones y F el tiempo de vida del agente (el nümero total de percepciones que re- 
cibirâ). La tabla de büsqueda contendrâ t \P\ ' entradas. Si consideramos ahora el taxi 
automatizado: la entrada visual de una câmara individual es de 27 megabytes por segundo 
(30 fotografias por segundo, 640 X 480 pixels con 24 bits de information de colores). 
Lo cual généra una tabla de büsqueda con mas de io 250 000 000 000 entradas por hora de con¬ 
duction. Incluso la tabla de büsqueda del ajedrez (un fragmento del mundo real peque- 
no y obediente) tiene por lo menos 10 150 entradas. El tamano exageradamente grande de 
estas tablas (el nümero de âtomos en el universo observable es menor que 10 80 ) signifi- 
ca que (a) no hay agente fisico en este universo que tenga el espacio suficiente como para 
almacenar la tabla, (b) el disenador no tendra tiempo para crear la tabla, (c) ningün agen¬ 
te podrfa aprender todas las entradas de la tabla a partir de su experiencia, y (d) incluso 
si el entorno es lo suficientemente simple para generar una tabla de un tamano razona- 
ble, el disenador no tiene quien le asesore en la forma en la que rellenar la tabla. 

A pesar de todo ello, el Agente-Dirigido-Mediante tabla hace lo que nosotros que- 
remos: implémenta la funciôn deseada para el agente. El desafio clave de la IA es en- 
contrar la forma de escribir programas, que en la medida de lo posible, reproduzcan un 
comportamiento racional a partir de una pequena cantidad de côdigo en vez de a partir 
de una tabla con un gran nümero de entradas. Existen bastantes ejemplos que muestran 
qué se puede hacer con éxito en otras areas: por ejemplo, las grandes tablas de las raices 
cuadradas utilizadas por ingenieros y estudiantes antes de 1970 se han reemplazado por 
un programa de cinco lineas que implémenta el método de Newton en las calculadoras 
electrônicas. La pregunta es, en el caso del comportamiento inteligente general, ^puede 
la IA hacer lo que Newton hizo con las raices cuadradas? Creemos que la respuesta es 
afirmativa. 
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En lo que resta de esta seccion se presentan los cuatro tipos bâsicos de programas 
para agentes que encarnan los principios que subyacen en casi todos los sistemas inte- 
ligentes. 

• Agentes reactivos simples. 

• Agentes reactivos basados en modelos. 

• Agentes basados en objetivos. 

• Agentes basados en utilidad. 

Después se explica, en términos generales, cômo convertir todos ellos en agentes que 
aprendan. 

Agentes reactivos simples 

El tipo de agente mas sencillo es el agente reactivo simple. Estos agentes seleccionan 
las acciones sobre la base de las percepciones actuales, ignorando el resto de las per- 
cepciones historicas. Por ejemplo, el agente aspiradora cuya funcion de agente se pré¬ 
senté en la Figura 2.3 es un agente reactivo simple porque toma sus decisiones solo con 
base en la localizacion actual y si ésta esta sucia. La Figura 2.8 muestra el programa para 
este agente. 

Hay que tener en cuenta que el programa para el agente aspiradora es muy pequeno 
comparado con su tabla correspondiente. La reduccion mas clara se obtiene al ignorar 
la historia de percepcion, que reduce el nümero de posibilidades de 4 r a solo 4. Otra re¬ 
duccion se basa en el hecho de que cuando la cuadrfcula actual esta sucia, la accion no 
dépende de la localizacion. 

Imaginese que es el conductor del taxi automâtico. Si el coche que circula delante 
frena, y las luces de freno se encienden, entonces lo advertirfa y comenzaria a frenar. En 
otras palabras, se llevaria a cabo algün tipo de procesamiento sobre las seriales visuales 
para establecer la condicion que se llama «El coche que circula delante esta frenando». 
Esto dispara algunas conexiones establecidas en el programa del agente para que se eje- 
cute la accion «iniciar frenado». Esta conexion se denomina régla de condiciôn-acciôn 8 , 
y se représenta por 

si el-coche-que-circula-delante-estâ-frenando entonces iniciar-frenada. 


funciôn AGENTE-AspiRADORA-REACTivo([/c>ca/;zcic/o«, estado]) devuelve una accion 

si estado = Sucio entonces devolver Aspirar 

de otra forma, si localizacion = A entonces devolver Derecha 

de otra forma, si localizacion = B entonces devolver Izquierda 


Figura 2.8 Programa para el agente aspiradora de reactivo simple en el entomo definido por las 
dos cuadriculas. Este programa implémenta la funcion de agente presentada en la Figura 2.3. 


También llamadas réglas de situaciôn-acciôn, producciones, o réglas si-entonces. 
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Los humanos también tienen muchas de estas conexiones, algunas de las cuales son res- 
puestas aprendidas (como en el caso de la conducciôn) y otras son reacciones innatas 
(como parpadear cuando algo se acerca al ojo). A lo largo de esta obra, se estudiarân 
diferentes formas en las que se pueden aprender e implementar estas conexiones. 

El programa de la Figura 2.8 es especifico para el entorno concreto de la aspirado- 
ra. Una aproximacion mas general y flexible es la de construir primero un intérprete de 
proposito general para réglas de condicion-accion y después crear conjuntos de réglas 
para entornos de trabajo especificos. La Figura 2.9 présenta la estructura de este programa 
general de forma esquemâtica, mostrando como las réglas de condicion-accion permi- 
ten al agente generar la conexion desde las percepciones a las acciones. No se preocu- 
pe si le parece trivial; pronto se complicarâ. Se utilizan rectângulos para denotar el estado 
interno actual del proceso de toma de decisiones del agente y ôvalos para representar la 
informacion base utilizada en el proceso. El programa del agente, que es también muy 
simple, se muestra en la Figura 2.10. La funcion Interpretar-Entrada généra una 
descripcion abstracta del estado actual a partir de la percepcion, y la funcion Regla-Coin- 
cidencia devuelve la primera régla del conjunto de réglas que coincide con la descrip¬ 
cion del estado dada. Hay que tener en cuenta que la descripcion en términos de «réglas» 



Figura 2.9 Diagrama esquemâtico de un agente reactivo simple. 


funcion AGENTE-REAcnvo-SiMPLE(percepcion) devuelve una accion 
estâtico: réglas, un conjunto de réglas condicion-accion 

estado <— iNTERPRETAR-ENTRADAlpercepriOM) 
régla <— REGLA-CoiNCiDENCiACestarfo, réglas) 
accion <— REGLA-AcciÔN[Veg/tf] 
devolver accion 


Figura 2.10 Un agente reactivo simple, que actüa de acuerdo a la régla cuya condicion coincida 
con el estado actual, definido por la percepcion. 
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ALEATORIO 


ESTADO INTERNO 


y «coincidencias» es puramente conceptual; las implementaciones reales pueden ser tan 
simples como colecciones de puertas lôgicas implementando un circuito booleano. 

Los agentes reactivos simples tienen la admirable propiedad de ser simples, pero 
poseen una inteligencia muy limitada. El agente de la Figura 2.10 funcionarâ solo si 
se puede tomar la decision correcta sobre la base de la percepciôn actual, lo cual es 
posible solo si el entorno es totalmente observable. Incluso el que haya una pequena 
parte que no se pueda observar puede causar serios problemas. Por ejemplo, la régla 
de frenado dada anteriormente asume que la condiciôn el-coche-que-circula-delante- 
estâ-frenando se puede determinar a partir de la percepciôn actual (imagen de video 
actual) si el coche de enfrente tiene un sistema centralizado de luces de freno. 
Desafortunadamente, los modelos antiguos tienen diferentes configuraciones de luces 
traseras, luces de frenado, y de intermitentes, y no es siempre posible saber a partir de 
una ünica imagen si el coche esta frenando. Un agente reactivo simple conduciendo 
detrâs de un coche de este tipo puede frenar continuamente y de manera innecesaria, 
o peor, no frenar nunca. 

Un problema similar aparece en el mundo de la aspiradora. Supongamos que se éli¬ 
mina el sensor de localizaciôn de un agente aspiradora reactivo simple, y que solo tie¬ 
ne un sensor de suciedad. Un agente de este tipo tiene solo dos percepciones posibles: 
\Sucio] y [Limpio]. Puede Aspirar cuando se encuentra con [ Sucio ]. /,Qué debe hacer 
cuando se encuentra con [ Limpio ]? Si se desplaza a la Izquierda se equivoca (siempre) 
si esta en la cuadricula A, y si de desplaza a la Derecha se equivoca (siempre) si esta en 
la cuadricula B. Los bucles infinitos son a menudo inévitables para los agentes reacti¬ 
vos simples que operan en algunos entomos parcialmente observables. 

Salir de los bucles infinitos es posible si los agentes pueden seleccionar sus accio- 
nes aleatoriamente. Por ejemplo, si un agente aspiradora percibe [Limpio], puede lan- 
zar una moneda y elegir entre Izquierda y Derecha. Es fâcil mostrar que el agente se 
moverâ a la otra cuadricula en una media de dos pasos. Enfonces, si la cuadricula esta 
sucia, la limpiarâ y la tarea de limpieza se completarâ. Por tanto, un agente reactivo simple 
con capacidad para elegir acciones de manera aleatoria puede mejorar los resultados que 
proporciona un agente reactivo simple determinista. 

En la Secciôn 2.3 se mencionô que un comportamiento aleatorio de un tipo adecua- 
do puede resultar racional en algunos entornos multiagente. En entornos de agentes in- 
dividuales, el comportamiento aleatorio no es normalmente racional. Es un truco ütil que 
ayuda a los agentes reactivos simples en algunas situaciones, pero en la mayoria de los 
casos se obtendrân mejores resultados con agentes deterministas mas sofisticados. 


Agentes reactivos basados en modelos 

La forma mas efectiva que tienen los agentes de manejar la visibilidad parcial es alma- 
cenar informaciôn de las partes del mundo que no pueden ver. O lo que es lo mismo, 
el agente debe mantener algün tipo de estado interno que dependa de la historia perci- 
bida y que de ese modo refleje por lo menos alguno de los aspectos no observables del 
estado actual. Para el problema de los frenos, el estado interno no es demasiado exten¬ 
so, solo la fotografia anterior de la câmara, facilitando al agente la detecciôn de dos lu¬ 
ces rojas encendiéndose y apagândose simultâneamente a los costados del vehiculo. Para 




56 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


AGENTE BASADO 
EN MODELOS 


otros aspectos de la conduccion, como un cambio de carril, el agente tiene que mante- 
ner informacion de la posicion del resto de los coches si no los puede ver. 

La actualizaciôn de la informacion de estado interno segün pasa el tiempo requiere 
codificar dos tipos de conocimiento en el programa del agente. Primero, se necesita al- 
guna informacion acerca de como evoluciona el mundo independientemente del agen¬ 
te, por ejemplo, que un coche que esta adelantando estarâ mas cerca, detrâs, que en un 
momento inmediatamente anterior. Segundo, se necesita mas informacion sobre como 
afectan al mundo las acciones del agente, por ejemplo, que cuando el agente gire hacia 
la derecha, el coche gira hacia la derecha o que después de conducir durante cinco mi¬ 
nutas hacia el norte en la autopista se avanzan cinco millas hacia el norte a partir del pun- 
to en el que se estaba cinco minutos antes. Este conocimiento acerca de «como funcio- 
na el mundo», tanto si esta implementado con un circuito booleano simple o con teorfas 
cientificas complétas, se denomina modelo del mundo. Un agente que utilice este mo- 
delo es un agente basado en modelos. 



^Estado 


(Como evoluciona el mundo 


(^Qué efectos causan mis acciones^ 


(Réglas 


de condiciôn-acciôn 


i OitJ)— 




Qué accion debo 
tomai* ahora 


Agente 


Actuadores 


CD 

O- 

o* 

P 


CD 

P 

r-b 
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Figura 2.11 Un agente reactivo basado en modelos. 


funciôn AGENTE-REACTivo-CoN-EsTADO(percepciôn) devuelve una accion 
estâtico: estado, una descripciôn actual del estado del mundo 
réglas, un conjunto de réglas condicion-acciôn 
accion, la accion mas reciente, inicialmente ninguna 

estado AcTUALiZAR-EsTADO(e.yter/o, accion, percepciôn) 
régla <— REGLA-CoiNCiDENCiA(esfczcfo, réglas) 
accion <— REGLA-AcciÔNpeg/tf] 
devolver accion 


Figura 2.12 Un agente reactivo basado en modelos, que almacena informacion sobre el estado 
actual del mundo utilizando un modelo interno. Después selecciona una accion de la misma forma 
que el agente reactivo. 
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La Figura 2.11 proporciona la estructura de un agente reactivo simple con estado in¬ 
terno, muestra cômo la percepcion actual se combina con el estado interno antiguo para 
generar la descripcion actualizada del estado actual. La Figura 2.12 muestra el progra- 
ma del agente. La parte interesante es la correspondiente a la funciôn Actualizar-Esta- 
do, que es la responsable de la creaciôn de la nueva descripcion del estado interno. Ade- 
mâs de interpretar la nueva percepcion a partir del conocimiento existente sobre el 
estado, utiliza informaciôn relativa a la forma en la que evoluciona el mundo para co- 
nocer mas sobre las partes del mundo que no estân visibles; para ello debe conocer cuâl 
es el efecto de las acciones del agente sobre el estado del mundo. Los Capltulos 10 y 17 
ofrecen ejemplos detallados. 


Agentes basados en objetivos 

El conocimiento sobre el estado actual del mundo no es siempre suficiente para decidir 
qué hacer. Por ejemplo, en un cmce de carreteras, el taxista puede girar a la izquierda, 
girar a la derecha o seguir hacia adelante. La decision correcta dépende de dônde quiere 
ir el taxi. En otras palabras, ademâs de la descripcion del estado actual, el agente nece- 
meta sita algün tipo de informaciôn sobre su meta que describa las situaciones que son 

deseables, por ejemplo, llegar al destino propuesto por el pasajero. El programa del agen¬ 
te se puede combinar con informaciôn sobre los resultados de las acciones posibles (la 
misma informaciôn que se utilizô para actualizar el estado interno en el caso del agen¬ 
te reflexivo) para elegir las acciones que permitan alcanzar el objetivo. La Figura 2.13 
muestra la estructura del agente basado en objetivos. 

En algunas ocasiones, la selecciôn de acciones basadas en objetivos es directa, cuan- 
do alcanzar los objetivos es el resultado inmediato de una acciôn individual. En otras oca- 



Figura 2.13 Un agente basado en objetivos y basado en modelos, que almacena informaciôn del 
estado del mundo asi como del conjunto de objetivos que intenta alcanzar, y que es capaz de se- 
leccionar la acciôn que eventualmente lo guiarâ hacia la consecuciôn de sus objetivos. 






































58 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


siones, puede ser mas complicado, cuando el agente tiene que considerar secuencias com- 
plejas para encontrar el camino que le permita alcanzar el objetivo. Büsqueda (Capltu- 
los del 3 al 6) y planificaciôn (Capitulos 11 y 12) son los subcampos de la IA centra- 
dos en encontrar secuencias de acciones que permitan a los agentes alcanzar sus metas. 

Hay que tener en cuenta que la toma de decisiones de este tipo es fundamentalmen- 
te diferente de las réglas de condiciôn-acciôn descritas anteriormente, en las que hay que 
tener en cuenta consideraciones sobre el futuro (como «/ ; qué pasarâ si yo hago esto y 
esto?» y «/ me harâ esto feliz?»). En los disenos de agentes reactivos, esta informaciôn 
no esta representada explicitamente, porque las réglas que maneja el agente proyectan 
directamente las percepciones en las acciones. El agente reactivo frena cuando ve luces 
de freno. Un agente basado en objetivos, en principio, puede razonar que si el coche que 
va delante tiene encendidas las luces de frenado, esta reduciendo su velocidad. Dada la 
forma en la que el mundo evoluciona normalmente, la ünica acciôn que permite alcan¬ 
zar la meta de no chocarse con otros coches, es frenar. 

Aunque el agente basado en objetivos pueda parecer menos eficiente, es mas flexi¬ 
ble ya que el conocimiento que soporta su decision esta representado explicitamente y 
puede modificarse. Si comienza a llover, el agente puede actualizar su conocimiento so¬ 
bre como se comportan los frenos; lo cual implicarâ que todas las formas de actuar re¬ 
levantes se alteren automâticamente para adaptarse a las nuevas circunstancias. Para el 
agente reactivo, por otro lado, se tendrân que rescribir muchas réglas de condiciôn-ac¬ 
ciôn. El comportamiento del agente basado en objetivos puede cambiarse fâcilmente para 
que se dirija a una localizaciôn diferente. Las réglas de los agentes reactivos relaciona- 
das con cuando girar y cuando seguir recto son validas solo para un destino concreto y 
tienen que modificarse cada vez que el agente se dirija a cualquier otro lugar distinto. 


Agentes basados en utilidad 

Las metas por si solas no son realmente suficientes para generar comportamiento de gran 
calidad en la mayoria de los entomos. Por ejemplo, hay muchas secuencias de acciones 
que llevarân al taxi a su destino (y por tanto a alcanzar su objetivo), pero algunas son 
mas râpidas, mas seguras, mas fiables, o mas baratas que otras. Las metas solo propor- 
cionan una cruda distinciôn binaria entre los estados de «felicidad» y «tristeza», mien- 
tras que una medida de eficiencia mas general deberia permitir una comparaciôn entre 
estados del mundo diferentes de acuerdo al nivel exacto de felicidad que el agente al- 
cance cuando se llegue a un estado u otro. Como el término «felicidad» no suena muy 
cientifico, la terminologia tradicional utilizada en estos casos para indicar que se pre- 

utilidad fiere un estado del mundo a otro es que un estado tiene mas utilidad que otro para el 

agente 9 . 

funciôn de utilidad Una funciôn de utilidad proyecta un estado (o una secuencia de estados) en un nü- 

mero real, que représenta un nivel de felicidad. La definiciôn compléta de una funciôn 
de utilidad permite tomar decisiones racionales en dos tipos de casos en los que las me¬ 
tas son inadecuadas. Primero, cuando haya objetivos conflictivos, y solo se puedan al- 


9 La palabra «utilidad» aquî se refiere a «la cualidad de ser ütil». 
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Figura 2.14 Un agente basado en utilidad y basado en modelos. Utiliza un modelo del mundo, 
junto con una funcion de utilidad que calcula sus preferencias entre los estados del mundo. Des- 
pués selecciona la accion que le lleve a alcanzar la mayor utilidad esperada, que se calcula haciendo 
la media de todos los estados résultantes posibles, ponderado con la probabilidad del resultado. 


canzar algunos de ellos (por ejemplo, velocidad y seguridad), la funcion de utilidad dé¬ 
termina el equilibrio adecuado. Segundo, cuando haya varios objetivos por los que se 
pueda guiar el agente, y ninguno de ellos se pueda alcanzar con certeza, la utilidad pro- 
porciona un mecanismo para ponderar la probabilidad de éxito en funcion de la impor- 
tancia de los objetivos. 

En el Capitulo 16, se mostrarâ como cualquier agente racional debe comportarse como 
si tuviese una funcion de utilidad cuyo valor esperado tiene que maximizar. Por tanto, 
un agente que posea una funcion de utilidad explicita puede tomar decisiones raciona- 
les, y lo puede hacer con la ayuda de un algoritmo de propôsito general que no dependa 
de la funcion especffica de utilidad a maximizar. De esta forma, la definiciôn «global» 
de racionalidad (identificando como racionales aquellas funciones de los agentes que pro- 
porcionan el mayor rendimiento) se transforma en una restricciôn «local» en el diseno 
de agentes racionales que se puede expresar con un simple programa. 

La Figura 2.14 muestra la estructura de un agente basado en utilidad. En la Parte IV 
aparecen programas de agentes basados en utilidad, donde se presentan agentes que to- 
man decisiones y que deben trabajar con la incertidumbre inherente a los entornos par- 
cialmente observables. 


Agentes que aprenden 

Se han descrito programas para agentes que poseen varios métodos para seleccionar ac- 
ciones. Hasta ahora no se ha explicado como poner en marcha estos programas de agen¬ 
tes. Turing (1950), en su temprano y famoso articulo, considéré la idea de programar 
sus mâquinas inteligentes a mano. Estimé cuânto tiempo podia llevar y concluyô que «Se- 
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ELEMENTO DE 
APRENDIZAJE 


ELEMENTO DE 
ACTUACIÔN 


CRÎTICA 


ria deseable utilizar algün método mas râpido». El método que propone es construir mâ- 
quinas que aprendan y después ensenarlas. En muchas areas de IA, éste es ahora el mé¬ 
todo mas adecuado para crear sistemas novedosos. El aprendizaje tiene otras ventajas, 
como se ha explicado anteriormente: permite que el agente opéré en medios inicialmente 
desconocidos y que sea mas competente que si solo utilizase un conocimiento inicial. 
En esta secciôn, se introducen brevemente las principales ideas en las que se basan los 
agentes que aprenden. En casi todos los capitulos de este libro se comentan las posibi- 
lidades y métodos de aprendizaje de tipos de agentes concretos. La Parte VI profundi- 
za mas en los algoritmos de aprendizaje en si mismos. 

Un agente que aprende se puede dividir en cuatro componentes conceptuales, tal y 
como se muestra en la Figura 2.15. La distinciôn mas importante entre el elemento de 
aprendizaje y el elemento de actuaciôn es que el primero esta responsabilizado de hacer 
mejoras y el segundo se responsabiliza de la selecciôn de acciones externas. El elemento 
de actuaciôn es lo que anteriormente se habia considerado como el agente completo: 
recibe estimulos y détermina las acciones a realizar. El elemento de aprendizaje se rea¬ 
limenta con las criticas sobre la actuaciôn del agente y détermina como se debe modi- 
ficar el elemento de actuaciôn para proporcionar mejores resultados en el futuro. 

El diseno del elemento de aprendizaje dépende mucho del diseno del elemento de 
actuaciôn. Cuando se intenta disenar un agente que tenga capacidad de aprender, la pri¬ 
mera cuestiôn a solucionar no es /como se puede ensenar a aprender?, sino /,qué tipo de 
elemento de actuaciôn necesita el agente para llevar a cabo su objetivo, cuando haya 
aprendido como hacerlo? Dado un diseno para un agente, se pueden construir los me- 
canismos de aprendizaje necesarios para mejorar cada una de las partes del agente. 

La critica indica al elemento de aprendizaje qué tal lo esta haciendo el agente con 
respecto a un nivel de actuaciôn fijo. La critica es necesaria porque las percepciones por 
si mismas no prevén una indicaciôn del éxito del agente. Por ejemplo, un programa de 
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GENERADOR DE 
PROBLEMAS 


ajedrez puede recibir una percepcion indicando que ha dado jaque mate a su oponente, 
pero necesita tener un nivel de actuaciôn que le indique que ello es bueno; la percepcion 
por si misma no lo indica. Es por tanto muy importante fijar el nivel de actuaciôn. Con- 
ceptualmente, se debe tratar con él como si estuviese fuera del agente, ya que éste no 
debe modificarlo para satisfacer su propio interés. 

El ültimo componente del agente con capacidad de aprendizaje es el generador de 
problemas. Es responsable de sugerir acciones que lo guiarân hacia experiencias nue- 
vas e informativas. Lo interesante es que si el elemento de actuaciôn sigue su camino, 
puede continuar llevando a cabo las acciones que sean mejores, dado su conocimiento. 
Pero si el agente esta dispuesto a explorar un poco, y llevar a cabo algunas acciones que 
no sean totalmente ôptimas a corto plazo, puede descubrir acciones mejores a largo pla- 
zo. El trabajo del generador de problemas es sugerir estas acciones exploratorias. Esto 
es lo que los cientificos hacen cuando llevan a cabo experimentos. Galileo no pensaba 
que tirar piedras desde lo alto de una torre en Pisa ténia un valor por si mismo. El no tra- 
taba de romper piedras ni de cambiar la forma de pensar de transeüntes desafortunados 
que paseaban por el lugar. Su intenciôn era adaptar su propia mente, para identificar una 
teoria que definiese mejor el movimiento de los objetos. 

Para concretar el diseno total, se puede volver a utilizar el ejemplo del taxi automa- 
tizado. El elemento de actuaciôn consiste en la colecciôn de conocimientos y procedi- 
mientos que tiene el taxi para seleccionar sus acciones de conducciôn. El taxi se pone 
en marcha y circula utilizando este elemento de actuaciôn. La critica observa el mundo 
y proporciona informaciôn al elemento de aprendizaje. Por ejemplo, después de que el 
taxi se situe très carriles hacia la izquierda de forma râpida, la critica observa el lenguaje 
escandaloso que utilizan otros conductores. A partir de esta experiencia, el elemento de 
aprendizaje es capaz de formulai - una régla que indica que ésta fue una mala acciôn, y 
el elemento de actuaciôn se modifica incorporando la nueva régla. El generador de pro¬ 
blemas debe identificar ciertas areas de comportamiento que deban mejorarse y sugerir 
experimentos, como probar los frenos en carreteras con tipos diferentes de superficies 
y bajo condiciones distintas. 

El elemento de aprendizaje puede hacer cambios en cualquiera de los componentes 
de «conocimiento» que se muestran en los diagramas de agente (Figuras 2.9, 2.11, 2.13, 
y 2.14). Los casos mas simples incluyen el aprendizaje directo a partir de la secuencia 
percibida. La observaciôn de pares de estados sucesivos del entorno puede permitir que 
el agente aprenda «como evoluciona el mundo», y la observaciôn de los resultados de 
sus acciones puede permitir que el agente aprenda «qué hacen sus acciones». Por ejem¬ 
plo, si el taxi ejerce una cierta presiôn sobre los frenos cuando esta circulando por una 
carretera mojada, acto seguido conocerâ como décéléra el coche. Claramente, estas dos 
tareas de aprendizaje son mas dificiles si solo existe una vista parcial del medio. 

Las formas de aprendizaje mostradas en los pârrafos precedentes no necesitan el ac- 
ceso a niveles de actuaciôn externo, de alguna forma, el nivel es el que se utiliza uni- 
versalmente para hacer pronôsticos de acuerdo con la experimentaciôn. La situaciôn es 
ligeramente mas compleja para un agente basado en utilidad que desee adquirir infor¬ 
maciôn para crear su funciôn de utilidad. Por ejemplo, se supone que el agente conduc- 
tor del taxi no recibe propina de los pasajeros que han recorrido un trayecto de forma 
incômoda debido a una mala conducciôn. El nivel de actuaciôn externo debe informar 
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al agente de que la pérdida de propinas tiene una contribuciôn negativa en su nivel de 
actuacion medio; enfonces el agente puede aprender que «maniobras violentas no con- 
tribuyen a su propia utilidad». De alguna manera, el nivel de actuacion identifica parte 
de las percepciones entrantes como recompensas (o penalizaciones) que generan una 
respuesta directa en la calidad del comportamiento del agente. Niveles de actuacion in- 
tegrados como el dolor y el hambre en animales se pueden enmarcar en este contexto. 
El Capitulo 21 discute estos asuntos. 

En resumen, los agentes tienen una gran variedad de componentes, y estos compo- 
nentes se pueden representar de muchas formas en los programas de agentes, por lo que, 
parece haber una gran variedad de métodos de aprendizaje. Existe, sin embargo, una 
vision unificada sobre un tema fundamental. El aprendizaje en el campo de los agentes 
inteligentes puede definirse como el proceso de modificaciôn de cada componente del 
agente, lo cual permite a cada componente comportarse mas en consonancia con la in- 
formaciôn que se recibe, lo que por tanto permite mejorar el nivel medio de actuacion 
del agente. 


2.5 Resumen 


En este capitulo se ha realizado un recorrido râpido por el campo de la IA, que se ha pre- 
sentado como la ciencia del diseno de los agentes. Los puntos mas importantes a tener 
en cuenta son: 

• Un agente es algo que percibe y actüa en un medio. La funciôn del agente para 
un agente especifica la acciôn que debe realizar un agente como respuesta a cual- 
quier secuencia percibida. 

• La medida de rendimiento evalüa el comportamiento del agente en un medio. Un 
agente racional actüa con la intenciôn de maximizar el valor esperado de la me¬ 
dida de rendimiento, dada la secuencia de percepciones que ha observado hasta el 
momento. 

• Las especificaciones del entorno de trabajo incluyen la medida de rendimiento, 
el medio externo, los actuadores y los sensores. El primer paso en el diseno de un 
agente debe ser siempre la especificaciôn, tan compléta como sea posible, del en¬ 
torno de trabajo. 

• El entorno de trabajo varia segün distintos parâmetros. Pueden ser total o parcial- 
mente visibles, deterministas o estocâsticos, episôdicos o secuenciales, estâticos 
o dinâmicos, discretos o continuos, y formados por un ünico agente o por varios 
agentes. 

• El programa del agente implémenta la funciôn del agente. Existe una gran va¬ 
riedad de disenos de programas de agentes, y reflejan el tipo de informaciôn que 
se hace explicita y se utiliza en el proceso de decision. Los disenos varian en efi- 
ciencia, solidez y flexibilidad. El diseno apropiado del programa del agente dé¬ 
pende en gran medida de la naturaleza del medio. 

• Los gentes reactivos simples responden directamente a las percepciones, mien- 
tras que los agentes reactivos basados en modelos mantienen un estado interno 
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que les permite seguir el rastro de aspectos del mundo que no son évidentes segün 
las percepciones actuales. Los agentes basados en objetivos actüan con la inten- 
ciôn de alcanzar sus metas, y los agentes basados en utilidad intentan maximizar 
su «felicidad» deseada. 

• Todos los agentes pueden mejorar su eficacia con la ayuda de mecanismos de 

aprendizaje. 



CONTROLADOR 


Notas bibliogrâficas e histôricas 

El papel central de la accion en la inteligencia (la nocion del razonamiento prâctico) 
se remonta por lo menos a la obra Nicomachean Ethics de Aristoteles. McCarthy 
(1958) tratô también el tema del razonamiento prâctico en su influyente articulo 
Programs with Common Sense. Los campos de la robotica y la teoria de control tienen 
interés, por su propia naturaleza, en la construccion de agentes fisicos. El concepto 
de un controlador, en el âmbito de la teoria de control, es idéntico al de un agente en 
IA. Quizâ sorprendentemente, la IA se ha concentrado durante la mayor parte de su 
historia en componentes aislados de agentes (sistemas que responden a preguntas, 
demostraciôn de teoremas, sistemas de vision, y demâs) en vez de en agentes complé¬ 
tas. La discusion sobre agentes que se présenta en el libro de Genesereth y Nilsson (1987) 
fue una influyente excepcion. El concepto de agente en si esta aceptado ampliamente 
ahora en el campo y es un tema central en libres recientes (Poole et al., 1998; Nilsson, 
1998). 

El Capitulo 1 muestra las raices del concepto de racionalidad en la Filosofia y la Eco- 
nomia. En la IA, el concepto tuvo un interés periférico hasta mediados de los 80, don- 
de comenzô a suscitar muchas discusiones sobre los propios fundamentos técnicos del 
campo. Un articulo de Jon Doyle (1983) predijo que el diseno de agentes racionales po- 
drfa llegar a ser la mision central de la IA, mientras otras areas populares podrfan sepa- 
rarse dando lugar a nuevas disciplinas. 

Es muy importante tener muy en cuenta las propiedades del medio y sus conse- 
cuencias cuando se realiza el diseno de los agentes racionales ya que forma parte de la 
tradiciôn ligada a la teoria de control [por ejemplo los sistemas de control clâsicos (Dorf 
y Bishop, 1999) manejan medios deterministas y totalmente observables; el control 6p- 
timo estocâstico (Kumar y Varaiya, 1986) maneja medios parcialmente observables y 
estocâsticos y un control hibrido (Henzinger y Sastry, 1998) maneja entomos que con- 
tienen elementos discretos y continuos]. La distincion entre entornos totalmente y par¬ 
cialmente observables es también central en la literatura sobre programaciôn dinâmi- 
ca desarrollada en el campo de la investigacion operativa (Puterman, 1994), como se 
comentarâ en el Capitulo 17. 

Los agentes reactivos fueron los primeros modelos para psicologos conductistas como 
Skinner (1953), que intenté reducir la psicologia de los organismos estrictamente a co- 
rrespondencias entrada/salida o estimulo/respuesta. La evolucion del behaviourismo 
hacia el funcionalismo en el campo de la psicologia, que estuvo, al menos de forma par- 
cial, dirigida por la aplicacion de la metâfora del computador a los agentes (Putnam, 1960; 
Lewis, 1966) introdujo el estado intemo del agente en el nuevo escenario. La mayor par- 
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te del trabajo realizado en el campo de la IA considéra que los agentes reactivos puros 
con estado interno son demasiado simples para ser muy influyentes, pero los trabajos 
de Rosenschein (1985) y Brooks (1986) cuestionan esta hipotesis ( véase el Capitulo 25). 
En los ültimos anos, se ha trabajado intensamente para encontrar algoritmos eficientes 
capaces de hacer un buen seguimiento de entornos complejos (Hamscher et al., 1992). 
El programa del Agente Remoto que contrôla la nave espacial Deep Space One (descrito 
en la pagina 27) es un admirable ejemplo concreto (Muscettola et al., 1998; Jonsson et 
al., 2000). 

Los agentes basados en objetivos estân présentes tanto en las referencias de Aristo- 
teles sobre el razonamiento prâctico como en los primeras articulos de McCarthy sobre 
IA logica. El robot Shakey (Fikes y Nilsson, 1971; Nilsson, 1984) fue el primer robot 
construido como un agente basado en objetivos. El anâlisis lôgico completo de un agen¬ 
te basado en objetivos aparece en Genesereth y Nilsson (1987), y Shoham (1993) ha 
desarrollado una metodologia de programacion basada en objetivos llamada programa- 
cion orientada a agentes. 

La perspectiva orientada a objetivos también prédomina en la psicologia cogniti- 
va tradicional, concretamente en el area de la resolucion de problemas, como se mues- 
tra tanto en el influyente Human Problem Solving (Newell y Simon, 1972) como en 
los ültimos trabajos de Newell (1990). Los objetivos, posteriormente definidos como 
deseos (generales) y las intenciones (perseguidas en un momento dado), son fonda¬ 
mentales en la teorfa de agentes desarrollada por Bratman (1987). Esta teoria ha sido 
muy influyente tanto en el entendimiento del lenguaje natural como en los sistemas 
multiagente. 

Horvitz et al. (1988) sugieren especificamente el uso de la maximizaciôn de la uti- 
lidad esperada concebida racionalmente como la base de la IA. El texto de Pearl (1988) 
fue el primero en IA que cubrio las teorias de la probabilidad y la utilidad en profundi- 
dad; su exposicion de métodos prâcticos de razonamiento y toma de decisiones con in- 
certidumbre fue, posiblemente, el factor individual que mas influyo en el desarrollo de 
los agentes basados en utilidad en los 90 ( véase la Parte V). 

El diseno general de agentes que aprenden representado en la Figura 2.15 es un clâ- 
sico de la literatura sobre aprendizaje automâtico (Buchanan et al., 1978; Mitchell, 
1997). Ejemplos de disenos, implementados en programas, se remontan, como poco, has- 
ta los programas que aprendian a jugar al ajedrez de Arthur Samuel (1959, 1967). La 
Parte VI esta dedicada al estudio en profundidad de los agentes que aprenden. 

El interés en los agentes y en el diseno de agentes ha crecido râpidamente en los ül¬ 
timos anos, en parte por la expansion de Internet y la necesidad observada de desarro- 
llar softbots (robots software) automâticos y moviles (Etzioni y Weld, 1994). Articulos 
relevantes pueden encontrarse en Readings in Agents (Huhns y Singh, 1998) y Funda- 
tions ofRational Agency (Wooldridge y Rao, 1999). Multiagent Systems (Weiss, 1999) 
proporciona una base sôlida para muchos aspectos del diseno de agentes. Conferencias 
dedicadas a agentes incluyen la International Conférence on Autonomous Agents, la In¬ 
ternational Workshop on Agent Théories, Architectures, and Languages, y la Interna¬ 
tional Conférence on Multiagent Systems. Finalmente, Dung Beetle Ecology (Hanski y 
Cambefort, 1991) proporciona gran cantidad de informacion interesante sobre el com- 
portamiento de los escarabajos estercoleros. 
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EJERCICIOS 

2.1 Defina con sus propias palabras los siguientes términos: agente, funcion de agente, 
programa de agente, racionalidad, autonomfa, agente reactivo, agente basado en modelo, 
agente basado en objetivos, agente basado en utilidad, agente que aprende. 

2.2 Tanto la medida de rendimiento como la funcion de utilidad miden la eficiencia del 
agente. Explique la diferencia entre los dos conceptos. 

2.3 Este ejercicio explora las diferencias entre las funciones de los agentes y los programas 
de los agentes. 

a) ^Puede haber mas de un programa de agente que implemente una funcion de 
agente dada? Proponga un ejemplo, o muestre por qué una no es posible. 

b) /,Hay funciones de agente que no se pueden implementar con algün programa 
de agente? 

c ) Dada una arquitectura mâquina, ^implémenta cada programa de agente exacta- 
mente una funcion de agente? 

d) Dada una arquitectura con n bits de almacenamiento, /cuântos posibles pro¬ 
gramas de agente diferentes puede almacenar? 

2.4 Exammese ahora la racionalidad de varias funciones de agentes aspiradora. 

a) Muestre que la funcion de agente aspiradora descrita en la Figura 2.3 es real- 
mente racional bajo la hipôtesis presentada en la pagina 36. 

b) Describa una funcion para un agente racional cuya medida de rendimiento mo- 
dificada deduzca un punto por cada movimiento. ^Requière el correspondiente 
programa de agente estado intemo? 

c) Discuta posibles disenos de agentes para los casos en los que las cuadriculas lim- 
pias puedan ensuciarse y la geografia del medio sea desconocida. / Ticnc senti- 
do que el agente aprenda de su experiencia en estos casos? <\Si es asi, qué debe 
aprender? 

2.5 Identifique la descripciôn REAS que define el entorno de trabajo para cada uno de 
los siguientes agentes: 

a) Robot que juega al fütbol; 

b) Agente para comprar libres en Internet; 

c) Explorador autônomo de Marte; 

d) Asistente matemâtico para la demostraciôn de teoremas. 

2.6 Para cada uno de los tipos de agente enumerados en el Ejercicio 2.5, caracterice el 
medio de acuerdo con las propiedades dadas en la Secciôn 2.3, y seleccione un diseno de 
agente adecuado. 

Los siguientes ejercicios estân relacionados con la implementaciôn de entornos y agen¬ 
tes para el mundo de la aspiradora. 

2.7 Implemente un simulador que détermine la medida de rendimiento para el entorno 
del mundo de la aspiradora descrito en la Figura 2.2 y especificado en la pagina 36. La 
implementaciôn debe ser modular, de forma que los sensores, actuadores, y las caracte- 
risticas del entorno (tamano, forma, localizaciôn de la suciedad, etc.) puedan modificar- 
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se fâcilmente. ( Nota: hay implementaciones disponibles en el repositorio de Internet que 
pueden ayudar a decidir qué lenguaje de programaciôn y sistema operativo seleccionar). 

2.8 Implemente un agente reactivo simple para el entorno de la aspiradora del Ejercicio 
2.7. Ejecute el simulador del entorno con este agente para todas las configuraciones ini- 
ciales posibles de suciedad y posiciones del agente. Almacene la puntuacion de la actua- 
ciôn del agente para cada configuraciôn y la puntuacion media global. 

2.9 Considéré una version modificada del entorno de la aspiradora del Ejercicio 2.7, en 
el que se penalice al agente con un punto en cada movimiento. 

a) /Puede un agente reactivo simple ser perfectamente racional en este medio? Ex- 
plfquese. 

b) /Que sucederia con un agente reactivo con estado? Disene este agente. 

c ) / Corno se responderfan las preguntas a y b si las percepciones proporcionan al 
agente informaciôn sobre el nivel de suciedad/limpieza de todas las cuadricu- 
las del entorno? 

2.10 Considéré una version modificada del entorno de la aspiradora del Ejercicio 2.7, 
en el que la geografïa del entorno (su extension, limites, y obstâculos) sea desconocida, 
asi como, la disposiciôn inicial de la suciedad. (El agente puede ir hacia arriba, abajo, asi 
como, hacia la derecha y a la izquierda.) 

a) /Puede un agente reactivo simple ser perfectamente racional en este medio? Ex- 
pliquese. 

b) /Puede un agente reactivo simple con una funciôn de agente aleatoria superar 
a un agente reactivo simple? Disene un agente de este tipo y medir su rendimiento 
en varios medios. 

c) /Se puede disenar un entorno en el que el agente con la funciôn aleatoria ob- 
tenga una actuaciôn muy pobre? Muestre los resultados. 

d) /Puede un agente reactivo con estado mejorar los resultados de un agente reac¬ 
tivo simple? Disene un agente de este tipo y medir su eficiencia en distintos me¬ 
dios. /Se puede disenar un agente racional de este tipo? 

2.11 Repitase el Ejercicio 2.10 para el caso en el que el sensor de localizaciôn sea 
reemplazado por un sensor «de golpes» que detecte si el agente golpea un obstâculo o si 
se sale fuera de los limites del entorno. Supôngase que el sensor de golpes déjà de fun- 
cionar. /Como debe comportarse el agente? 

2.12 Los entornos de la aspiradora en los ejercicios anteriores han sido todos determi- 
nistas. Discuta posibles programas de agentes para cada una de las siguientes versiones 
estoc âsticas: 

a) Ley de Murphy: el 25 por ciento del tiempo, la acciôn de Aspirar falla en la lim- 
pieza del suelo si esta sucio y deposita suciedad en el suelo si el suelo esta lim- 
pio. /Como se ve afectado el agente si el sensor de suciedad da una respuesta 
incorrecta el diez por ciento de las veces? 

b) Nino pequeno: en cada lapso de tiempo, cada recuadro limpio tiene un diez por 
ciento de posibilidad de ensuciarse. /Puede identificar un diseno para un agen¬ 
te racional en este caso? 



Resolver problemas 
mediante büsqueda 




En donde veremos cômo un agente puede encontrar una secuencia de acciones 
que alcance sus objetivos, cuando ninguna acciôn simple lo harâ. 


Los agentes mas simples discutidos en el Capitulo 2 fueron los agentes reactivos, los cua- 
les basan sus acciones en una aplicaciôn directa desde los estados a las acciones. Taies 
agentes no pueden funcionar bien en entornos en los que esta aplicaciôn sea demasiado 
grande para almacenarla y que tarde mucho en aprenderla. Por otra parte, los agentes 
basados en objetivos pueden tener éxito considerando las acciones futuras y lo deseable 
de sus resultados. 

agente resolvente- Este capitulo describe una clase de agente basado en objetivos llamado agente re- 

problemas solvente-problemas. Los agentes resolventes-problemas deciden qué hacer para en¬ 

contrar secuencias de acciones que conduzcan a los estados deseables. Comenzamos de- 
fmiendo con précision los elementos que constituyen el «problema» y su «soluciôn», y 
daremos diferentes ejemplos para ilustrar estas definiciones. Enfonces, describimos 
diferentes algoritmos de propôsito general que podamos utilizar para resolver estos pro¬ 
blemas y asi comparar las ventajas de cada algoritmo. Los algoritmos son no informa- 
dos, en el sentido que no dan informaciôn sobre el problema salvo su definiciôn. El 
Capitulo 4 se ocupa de los algoritmos de büsqueda informada, los que tengan cierta idea 
de donde buscar las soluciones. 

Este capitulo utiliza los conceptos de anâlisis de algoritmos. Los lectores no fami- 
liarizados con los conceptos de complejidad asintôtica (es decir, notaciôn 0()) y la NP 
completitud, deberia consultar el Apéndice A. 


3.1 Agentes resolventes-problemas 


Se supone que los agentes inteligentes deben maximizar su medida de rendimiento. Como 
mencionamos en el Capitulo 2, esto puede simplificarse algunas veces si el agente puede 
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FORMULACIÔN 
DEL OBJETIVO 


FORMULACION 
DEL PROBLEMA 


elegir un objetivo y trata de satisfacerlo. Primero miraremos el porqué y como puede 
hacerlo. 

Imagine un agente en la ciudad de Arad, Rumania, disfrutando de un viaje de vaca- 
ciones. La medida de rendimiento del agente contiene muchos factores: desea mejorar 
su bronceado, mejorar su rumano, tomar fotos, disfrutar de la vida nocturna, evitar re- 
sacas, etcétera. El problema de decision es complejo implicando muchos elementos y 
por eso, lee cuidadosamente las guias de viaje. Ahora, supongamos que el agente tiene 
un billete no reembolsable para volar a Bucarest al dia siguiente. En este caso, tiene sen- 
tido que el agente elija el objetivo de conseguir Bucarest. Las acciones que no alcanzan 
Bucarest se pueden rechazar sin mas consideraciones y el problema de decision del agen¬ 
te se simplifica enormemente. Los objetivos ayudan a organizar su comportamiento li- 
mitando las metas que intenta alcanzar el agente. El primer paso para solucionar un pro¬ 
blema es la formulaciôn del objetivo, basado en la situacion actual y la medida de 
rendimiento del agente. 

Consideraremos un objetivo como un conjunto de estados del mundo (exactamente 
aquellos estados que satisfacen el objetivo). La tarea del agente es encontrar qué secuencia 
de acciones permite obtener un estado objetivo. Para esto, necesitamos decidir qué ac¬ 
ciones y estados considerar. Si se utilizaran acciones del tipo «mueve el pie izquierdo 
hacia delante» o «gira el volante un grado a la izquierda», probablemente el agente nun- 
ca encontrarfa la salida del aparcamiento, no digamos por tanto llegar a Bucarest, por- 
que a ese nivel de detalle existe demasiada incertidumbre en el mundo y habria dema- 
siados pasos en una solucion. Dado un objetivo, la formulaciôn del problema es el 
proceso de decidir qué acciones y estados tenemos que considerar. Discutiremos con mas 
detalle este proceso. Por ahora, suponemos que el agente considerarâ acciones del tipo 
conducir de una ciudad grande a otra. Consideraremos los estados que corresponden a 
estar en una ciudad 1 determinada. 

Ahora, nuestro agente ha adoptado el objetivo de conducir a Bucarest, y considéra 
a donde ir desde Arad. Existen très carreteras desde Arad, una hacia Sibiu, una a Timi- 
soara, y una a Zerind. Ninguna de éstas alcanza el objetivo, y, a menos que el agente este 
familiarizado con la geografia de Rumania, no sabria qué carretera seguir 2 . En otras pa¬ 
labras, el agente no sabra cuâl de las posibles acciones es mejor, porque no conoce lo 
suficiente los estados que resultan al tomar cada accion. Si el agente no tiene conoci- 
miento adicional, entonces estarâ en un callejôn sin salida. Lo mejor que puede hacer 
es escoger al azar una de las acciones. 

Pero, supongamos que el agente tiene un mapa de Rumania, en papel o en su me- 
moria. El proposito del mapa es dotar al agente de informacion sobre los estados en los 
que podria encontrarse, asi como las acciones que puede tomar. El agente puede usar esta 
informacion para considerar los siguientes estados de un viaje hipotético por cada una 
de las très ciudades, intentando encontrar un viaje que llegue a Bucarest. Una vez que 


1 Observe que cada uno de estos «estados» se corresponde realmente a un conjunto de estados del mundo, 
porque un estado del mundo real especifîca todos los aspectos de realidad. Es importante mantener en men¬ 
te la distincion entre estados del problema a resolver y los estados del mundo. 

2 Suponemos que la mayorfa de los lectores estân en la misma situacion y pueden fâcilmente imaginarse como 
de desorientado esta nuestro agente. Pedimos disculpas a los lectores rumanos quienes no pueden aprove- 
charse de este recurso pedagôgico. 
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BÜSQUEDA 

SOLUCIÔN 

EJECUCIÔN 


ha encontrado un camino en el mapa desde Arad a Bucarest, puede alcanzar su objeti- 
vo, tomando las acciones de conducir que corresponden con los tramos del viaje. En 
general, un agente con distintas opciones inmediatas de valûtes desconocidos puede 
decidir qué hacer, examinando las diferentes secuencias posibles de acciones que le con- 
duzcan a estados de valores conocidos, y enfonces escoger la mejor secuencia. 

Este proceso de hallar esta secuencia se llama busqueda. Un algoritmo de büsque- 
da toma como entrada un problema y devuelve una soluciôn de la forma secuencia de 
acciones. Una vez que encontramos una soluciôn, se procédé a ejecutar las acciones que 
ésta recomienda. Esta es la llamada fase de ejecuciôn. Asf, tenemos un diseno simple 
de un agente «formular, buscar, ejecutar», como se muestra en la Figura 3.1. Después 
de formular un objetivo y un problema a resolver, el agente llama al procedimiento de 
busqueda para resolverlo. Enfonces, usa la soluciôn para guiar sus acciones, haciendo 
lo que la soluciôn le indica como siguiente paso a hacer —generalmente, primera ac- 
ciôn de la secuencia— y procédé a eliminar este paso de la secuencia. Una vez ejecuta- 
da la soluciôn, el agente formula un nuevo objetivo. 

Primero describimos el proceso de formulaciôn del problema, y después dedicare- 
mos la ültima parte del capltulo a diversos algoritmos para la funciôn Büsqueda. En este 
capltulo no discutiremos las funciones Actualizar-Estado y Formular-Objetivo. 

Antes de entrar en detalles, hagamos una breve pausa para ver dônde encajan los 
agentes resolventes de problemas en la discusiôn de agentes y entornos del Capltulo 2. 
El agente disenado en la Figura 3.1 supone que el entorno es estâtico, porque la for¬ 
mulaciôn y büsqueda del problema se hace sin prestar atenciôn a cualquier cambio que 
puede ocurrir en el entorno. El agente disenado también supone que se conoce el esta- 
do inicial; conocerlo es fâcil si el entorno es observable. La idea de enumerar «las 11- 


funciôn AGENTE-SENCiLLO-RESOLVENTE-PROBLEMAs(percepciôn) devuelve una acciôn 
entradas: percepciôn, una percepciôn 
estâtico: sec, una secuencia de acciones, vacla inicialmente 
est ado, una descripciôn del estado actual del mundo 
objetivo, un objetivo, inicialmente nulo 
problema, una formulaciôn del problema 

estado <— AcTUALiZAR-EsTADo(e5fado, percepciôn) 
si sec esta vacla entonces hacer 

objetivo <— FoRMULAR-OBJETivo(e.sfaAü 
problema <— Formular-Problema [estado,objetivo) 
sec <— BûsQVSEDAiproblema) 
acciôn <— PRiMERo(secMe«cia) 
sec <— Resto (secuencia) 
devolver acciôn 


Figura 3.1 Un sencillo agente resolvente de problemas. Primero formula un objetivo y un pro¬ 
blema, busca una secuencia de acciones que deberlan resolver el problema, y entonces ejecuta las 
acciones una cada vez. Cuando se ha completado, formula otro objetivo y comienza de nuevo. No- 
temos que cuando se ejecuta la secuencia, se ignoran sus percepciones: se supone que la soluciôn 
encontrada trabajarâ bien. 
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LAZO ABIERTO 


PROBLEMA 

ESTADO INICIAL 

FUNCIÔN SUCESOR 


ESPACIO DE ESTADOS 


CAMINO 

TEST OBJETIVO 


neas de accion altemativas» supone que el entorno puede verse como discreto. Final- 
mente, y mas importante, el agente disenado supone que el entorno es determinista. 
Las soluciones a los problemas son simples secuencias de acciones, asi que no pueden 
manejar ningün acontecimiento inesperado; ademâs, las soluciones se ejecutan sin 
prestar atenciôn a las percepciones. Los agentes que realizan sus planes con los ojos 
cerrados, por asi decirlo, deben estar absolutamente seguros de lo que pasa (los teôri- 
cos de control lo llaman sistema de lazo abierto, porque ignorar las percepciones rom¬ 
pe el lazo entre el agente y el entorno). Todas estas suposiciones significan que trata- 
mos con las clases mas faciles de entornos, razôn por la que este capitulo aparece tan 
pronto en el libro. La Secciôn 3.6 echa una breve ojeada sobre lo que sucede cuando 
relajamos las suposiciones de observancia y de determinismo. Los Capitulos 12 y 17 
entran mas en profundidad. 

Problemas y soluciones bien definidos 

Un problema puede definirse, formalmente, por cuatro componentes: 

• El estado inicial en el que comienza el agente. Por ejemplo, el estado inicial para 
nuestro agente en Rumania se describe como En(Arad). 

• Una descripciôn de las posibles acciones disponibles por el agente. La formula- 
ciôn 3 mas comün utiliza una funciôn sucesor. Dado un estado particular x, Su- 
CESOR-fn(x) devuelve un conjunto de pares ordenados (accion, sucesor), donde cada 
accion es una de las acciones legales en el estado x y cada sucesor es un estado 
que puede alcanzarse desde x, aplicando la accion. Por ejemplo, desde el estado 
En(Arad), la funciôn sucesor para el problema de Rumania devolverâ 

{ (Ir(Sibiu), En(Sibiu)), (Ir(Timisoara ), EnÇTimisoara )), ( Ir(Zerind ), En(Zerind ))} 

Implicitamente el estado inicial y la funciôn sucesor definen el espacio de esta- 
dos del problema (el conjunto de todos los estados alcanzables desde el estado ini¬ 
cial). El espacio de estados forma un grafo en el cual los nodos son estados y los 
arcos entre los nodos son acciones. (El mapa de Rumania que se muestra en la Fi¬ 
gura 3.2 puede interpretarse como un grafo del espacio de estados si vemos cada 
carretera como dos acciones de conducir, una en cada direcciôn). Un camino en 
el espacio de estados es una secuencia de estados conectados por una secuencia 
de acciones. 

• El test objetivo, el cual détermina si un estado es un estado objetivo. Algunas ve- 
ces existe un conjunto explicita de posibles estados objetivo, y el test simplemente 
comprueba si el estado es uno de ellos. El objetivo del agente en Rumania es el 
conjunto \En(Bucarest) (. Algunas veces el objetivo se especifica como una pro- 
piedad abstracta mas que como un conjunto de estados enumerados explicitamente. 
Por ejemplo, en el ajedrez, el objetivo es alcanzar un estado llamado «jaque mate», 
donde el rey del oponente es atacado y no tiene escapatoria. 


3 Una formulacion altemativa utiliza un conjunto de operadores que pueden aplicarse a un estado para ge- 
nerar asi los sucesores. 
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COSTO DEL CAMINO 


COSTO INDIVIDUAL 


SOLUCIÔN 0PT1MA 



• Una funcion costo del camino que asigna un costo numérico a cada camino. El 
agente resolvente de problemas elige una funcion costo que refleje nuestra medida 
de rendimiento. Para el agente que intenta llegar a Bucarest, el tiempo es esencial, 
asi que el costo del camino puede describirse como su longitud en kilomètres. En 
este capitulo, suponemos que el costo del camino puede describirse como la suma 
de los costos de las acciones individuales a lo largo del camino. El costo indivi- 
dual de una acciôn a que va desde un estado x al estado y se dénota por c(x,a,y). 
Los costos individuales para Rumania se muestran en la Figura 3.2 como las dis¬ 
tancias de las carreteras. Suponemos que los costos son no negativos 4 . 

Los elementos anteriores definen un problema y pueden unirse en una estructura de da¬ 
tas simple que se darâ como entrada al algoritmo resolvente del problema. Una soluciôn 
de un problema es un camino desde el estado inicial a un estado objetivo. La calidad de 
la soluciôn se mide por la funcion costo del camino, y una soluciôn ôptima tiene el cos¬ 
to mas pequeno del camino entre todas las soluciones. 

Formular los problemas 

En la secciôn anterior propusimos una formulaciôn del problema de ir a Bucarest en 
términos de estado inicial, funcion sucesor, test objetivo y costo del camino. Esta 
formulaciôn parece razonable, a pesar de omitir muchos aspectos del mundo real. Para 


4 Las implicaciones de costos negativos se exploran en el Ejercicio 3.17. 
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comparar la descripciôn de un estado simple, hemos escogido, En(Arad), para un viaje 
real por el pals, donde el estado del mundo incluye muchas cosas: los companeros de 
viaje, lo que esta en la radio, el paisaje, si hay algunos policias cerca, cômo esta de le- 
jos la parada siguiente, el estado de la carretera, el tiempo, etcétera. Todas estas consi- 
deraciones se dejan fuera de nuestras descripciones del estado porque son irrelevantes 
para el problema de encontrar una ruta a Bucarest. Al proceso de eliminar detalles de 
abstracciôn U na representaciôn se le llama abstracciôn. 

Ademâs de abstraer la descripciôn del estado, debemos abstraer sus acciones. Una 
acciôn de conducir tiene muchos efectos. Ademâs de cambiar la localizaciôn del vehi- 
culo y de sus ocupantes, pasa el tiempo, consume combustible, généra contaminaciôn, 
y cambia el agente (como dicen, el viaje ilustra). En nuestra formulaciôn, tenemos en 
cuenta solamente el cambio en la localizaciôn. También, hay muchas acciones que omi- 
tiremos: encender la radio, mirar por la ventana, el retraso de los policias, etcétera. Y 
por supuesto, no especificamos acciones a nivel de «girar la rueda très grados a la iz- 
quierda». 

^Podemos ser mas precisos para définir los niveles apropiados de abstracciôn? Pien- 
se en los estados y las acciones abstractas que hemos elegido y que se corresponden con 
grandes conjuntos de estados detallados del mundo y de secuencias detalladas de acciones. 
Ahora considéré una soluciôn al problema abstracto: por ejemplo, la trayectoria de Arad 
a Sibiu a Rimnicu Vilcea a Pitesti a Bucarest. Esta soluciôn abstracta corresponde a una 
gran cantidad de trayectorias mas detalladas. Por ejemplo, podriamos conducir con la 
radio encendida entre Sibiu y Rimnicu Vilcea, y después lo apagamos para el resto del 
viaje. La abstracciôn es vâlida si podemos ampliar cualquier soluciôn abstracta a una 
soluciôn en el mundo mas detallado; una condiciôn suficiente es que para cada estado 
detallado de «en Arad», haya una trayectoria detallada a algün estado «en Sibiu», etcé¬ 
tera. La abstracciôn es ütil si al realizar cada una de las acciones en la soluciôn es mas 
fâcil que en el problema original; en este caso pueden ser realizadas por un agente que 
conduce sin büsqueda o planificaciôn adicional. La elecciôn de una buena abstracciôn 
implica quitar tantos detalles como sean posibles mientras que se conserve la validez y 
se asegure que las acciones abstractas son faciles de realizar. Si no fuera por la capaci- 
dad de construir abstracciones ütiles, los agentes inteligentes quedarfan totalmente ab- 
sorbidos por el mundo real. 


3.2 Ejemplos de problemas 


PROBLEMA DE 
JUGUETE 


PROBLEMA DEL 
MUNDO REAL 


La metodologia para resolver problemas se ha aplicado a un conjunto amplio de entor- 
nos. Enumeramos aqui algunos de los mas conocidos, distinguiendo entre problemas de 
juguete y del mundo-real. Un problema de juguete se utiliza para ilustrar o ejercitar 
los métodos de resoluciôn de problemas. Estos se pueden describir de forma exacta y 
concisa. Esto significa que diferentes investigadores pueden utilizarlos fâcilmente para 
comparar el funcionamiento de los algoritmos. Un problema del mundo-real es aquel 
en el que la gente se preocupa por sus soluciones. Ellos tienden a no tener una sola des¬ 
cripciôn, pero nosotros intentaremos dar la forma general de sus formulaciones. 
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Problemas de juguete 

El primer ejemplo que examinaremos es el mundo de la aspiradora, introducido en el 
Capitulo 2. (Véase Figura 2.2.) Este puede formularse como sigue: 

• Estados: el agente esta en una de dos localizaciones, cada una de las cuales pue¬ 
de o no contener suciedad. Asi, hay 2 X 2 2 = 8 posibles estados del mundo. 

• Estado inicial: cualquier estado puede designarse como un estado inicial. 

• Funciôn sucesor: ésta généra los estados legales que resultan al intentar las très 
acciones ( Izquierda, Derecha y Aspirar). En la Figura 3.3 se muestra el espacio 
de estados completo. 

• Test objetivo: comprueba si todos los cuadrados estân limpios. 

• Costo del camino: cada costo individual es 1, asi que el costo del camino es el 
numéro de pasos que lo compone. 

Comparado con el mundo real, este problema de juguete tiene localizaciones discretas, 
suciedad discreta, limpieza fiable, y nunca se ensucia una vez que se ha limpiado. ( En 
la Seccion 3.6 relajaremos estas suposiciones). Una cosa a tener en cuenta es que el es¬ 
tado esta determinado por la localizacion del agente y por las localizaciones de la su¬ 
ciedad. Un entomo grande con n localizaciones tiene n 2" estados. 



8-puzzle El 8-puzle, la Figura 3.4 muestra un ejemplo, consiste en un tablera de 3 X 3 con ocho 

fichas numeradas y un espacio en blanco. Una ficha adyacente al espacio en blanco pue¬ 
de deslizarse a éste. La meta es alcanzar el estado objetivo especificado, tal como se mues¬ 
tra a la derecha de la figura. La formulaciôn estândar es como sigue: 

• Estados: la descripciôn de un estado especifica la localizacion de cada una de las 
ocho fichas y el blanco en cada uno de los nueve cuadrados. 
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PIEZAS DESLIZANTES 


PROBLEMA S-REINAS 


• Estado inicial: cualquier estado puede ser un estado inicial. Notese que cualquier 
objetivo puede alcanzarse desde exactamente la mitad de los estados iniciales po- 
sibles (Ejercicio 3.4). 

• Funciôn sucesor: ésta généra los estados legales que resultan de aplicar las cua- 
tro acciones (mover el blanco a la Izquierda, Derecha, Arriba y Abajo). 

• Test objetivo: comprueba si el estado coincide con la configuracion objetivo que 
se muestra en la Figura 3.4. (son posibles otras configuraciones objetivo). 

• Costo del camino: el costo de cada paso del camino tiene valor 1, asi que el cos- 
to del camino es el nümero de pasos. 

Que abstracciones se han incluido? Las acciones se han abstraido a los estados ini¬ 
ciales y finales, ignorando las localizaciones intermedias en donde se deslizan los 
bloques. Hemos abstraido acciones como la de sacudir el tablera cuando las piezas no 
se pueden mover, o extraer las piezas con un cuchillo y volverlas a poner. Nos dejan con 
una descripciôn de las réglas del puzle que evitan todos los detalles de manipulaciones 
fisicas. 



Figura 3.4 Un ejemplo tfpico del 8-puzle. 


El 8-puzle pertenece a la familia de puzles con piezas deslizantes, los cuales a menu- 
do se usan como problemas test para los nuevos algoritmos de IA. Esta clase general 
se conoce por ser NP compléta, asi que no esperamos encontrar métodos perceptible - 
mente mejores (en el caso peor) que los algoritmos de büsqueda descritos en este 
capitulo y en el siguiente. El 8-puzle tiene 9!/2 = 181,440 estados alcanzables y se 
resuelve fâcilmente. El 15 puzle (sobre un tablero de 4 X 4) tiene alrededor de 1,3 tri- 
llones de estados, y configuraciones aleatorias pueden resolverse optimamente en pocos 
milisegundos por los mejores algoritmos de büsqueda. El 24 puzle (sobre un tablero de 
5X5) tiene alrededor de 10 25 estados, y configuraciones aleatorias siguen siendo ab- 
solutamente dificiles de resolver de manera optima con los computadores y algoritmos 
actuales. 

El objetivo del problema de las 8-reinas es colocar las ocho reinas en un tablero de 
ajedrez de manera que cada reina no ataque a ninguna otra. (Una reina ataca alguna pie- 
za si esta en la misma fila, columna o diagonal.) La Figura 3.5 muestra una configura- 
ciôn que no es solucion: la reina en la columna de mas a la derecha esta atacando a la 
reina de arriba a la izquierda. 
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Figura 3.5 Casi una soluciôn del problema de las 8-reinas. (La soluciôn se déjà como ejercicio.) 


FORMULACIÔN 

INCREMENTAL 


FORMULACION 
COMPLETA DE 
ESTADOS 


Aunque existen algoritmos eficientes especfficos para este problema y para el problema 
general de las n reinas, sigue siendo un problema test interesante para los algoritmos de 
büsqueda. Existen dos principales formulaciones. Una formulaciôn incrémental que im- 
plica a operadores que aumentan la descripciôn del estado, comenzando con un estado 
vacio; para el problema de las 8-reinas, esto significa que cada acciôn anade una reina 
al estado. Una formulaciôn compléta de estados comienza con las ocho reinas en el 
tablera y las mueve. En cualquier caso, el coste del camino no tiene ningün interés porque 
solamente cuenta el estado final. La primera formulaciôn incrémental que se puede 
intentar es la siguiente: 


• Estados: cualquier combinaciôn de cero a ocho reinas en el tablera es un estado. 

• Estado inicial: ninguna reina sobre el tablera. 

• Funciôn sucesor: anadir una reina a cualquier cuadrado vacio. 

• Test objetivo: ocho reinas sobre el tablero, ninguna es atacada. 

En esta formulaciôn, tenemos 64 • 63 • • • 57 ~ 3 X 10 14 posibles combinaciones a in- 
vestigar. Una mejor formulaciôn deberâ prohibir colocar una reina en cualquier cuadra¬ 
do que esté realmente atacado: 


• Estados: son estados, la combinaciôn de n reinas (0 < « < 8), una por columna 
desde la columna mas a la izquierda, sin que una reina ataque a otra. 

• Funciôn sucesor: anadir una reina en cualquier cuadrado en la columna mas a la 
izquierda vacia tal que no sea atacada por cualquier otra reina. 

Esta formulaciôn reduce el espacio de estados de las 8-reinas de 3 X 10 14 a 2.057, y las 
soluciones son faciles de encontrar. Por otra parte, para 100 reinas la formulaciôn ini¬ 
cial tiene ÎO 400 estados mientras que las formulaciones mejoradas tienen cerca de 10 52 
estados (Ejercicio 3.5). Esta es una reducciôn enorme, pero el espacio de estados mejo- 
rado sigue siendo demasiado grande para los algoritmos de este capitulo. El Capitulo 4 
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PROBLEMA 
DE BÜSQUEDA 
DE UNA RUTA 


PROBLEMAS 

TURISTICOS 


PROBLEMA DEL 
VIAJANTE DE 
COMERCIO 


describe la formulaciôn compléta de estados y el Capitulo 5 nos da un algoritmo senci- 
llo que hace el problema de un millon de reinas fâcil de resolver. 

Problemas del mundo real 

Hemos visto como el problema de büsqueda de una ruta esta definido en términos de 
posiciones y transiciones a lo largo de ellas. Los algoritmos de büsqueda de rutas se han 
utilizado en una variedad de aplicaciones, taies como rutas en redes de computadores, 
planificacion de operaciones militares, y en sistemas de planificacion de viajes de lme- 
as aéreas. Estos problemas son complejos de especificar. Consideremos un ejemplo 
simplificado de un problema de viajes de lmeas aéreas que especificamos como: 

• Estados: cada estado esta representado por una localizacion (por ejemplo, un ae- 
ropuerto) y la hora actual. 

• Estado inicial: especificado por el problema. 

• Funciôn sucesor: devuelve los estados que resultan de tomar cualquier vuelo pro- 
gramado (quizâ mas especificado por la clase de asiento y su posiciôn) desde el 
aeropuerto actual a otro, que salgan a la hora actual mas el tiempo de trânsito del 
aeropuerto. 

• Test objetivo: ^tenemos nuestro destino para una cierta hora especificada? 

• Costo del camino: esto dépende del costo en dinero, tiempo de espera, tiempo 
del vuelo, costumbres y procedimientos de la inmigraciôn, calidad del asiento, hora, 
tipo de avion, kilometraje del aviador experto, etcétera. 

Los sistemas comerciales de viajes utilizan una formulaciôn del problema de este tipo, 
con muchas complicaciones adicionales para manejar las estructuras bizantinas del pre- 
cio que imponen las lineas aéreas. Cualquier viajero experto sabe, sin embargo, que 
no todo el transporte aéreo va segün lo planificado. Un sistema realmente bueno debe 
incluir planes de contingencia (taies como réserva en vuelos alternativos) hasta el punto 
de que éstos estén justificados por el coste y la probabilidad de la falta del plan 
original. 

Los problemas turisticos estân estrechamente relacionados con los problemas de 
büsqueda de una ruta, pero con una importante diferencia. Consideremos, por ejem¬ 
plo, el problema, «visitar cada ciudad de la Figura 3.2 al menos una vez, comenzan- 
do y finalizando en Bucarest». Como en la büsqueda de mtas, las acciones corresponden 
a viajes entre ciudades adyacentes. El espacio de estados, sin embargo, es absoluta- 
mente diferente. Cada estado debe incluir no solo la localizacion actual sino también 
las ciudades que el agente ha visitado. El estado inicial séria «En Bucarest; visitado 
{Bucarest} », un estado intermedio tipico séria «En Vaslui; visitado {Bucarest, Urzi- 
ceni, Vaslui}», y el test objetivo comprobaria si el agente esta en Bucarest y ha visi¬ 
tado las 20 ciudades. 

El problema del viajante de comercio (PVC) es un problema de ruta en la que cada 
ciudad es visitada exactamente una vez. La tarea principal es encontrar el viaje mas cor- 
to. El problema es de tipo NP duro, pero se ha hecho un gran esfuerzo para mejorar las 
capacidades de los algoritmos del PVC. Ademâs de planificacion de los viajes del 
viajante de comercio, estos algoritmos se han utilizado para tareas taies como la plani- 
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DISTRIBUCIÔN VLSI 


NAVEGACION DE 
UN ROBOT 


SECUENCIACION PARA 
EL ENSAMBLAJE 
AUTOMÂTICO 


OISENO DE 
PROTEiNAS 


BÜSQUEDAEN 
INTERNET 


ficaciôn de los movimientos de los taladros de un circuito impreso y para abastecer de 
mâquinas a las tiendas. 

Un problema de distribuciôn VLSI requiere la colocaciôn de millones de compo- 
nentes y de conexiones en un chip verificando que el area es minima, que se reduce al 
minirno el circuito, que se reduce al minirno las capacitaciones, y se maximiza la pro¬ 
duction de fabrication. El problema de la distribuciôn viene después de la fase de di- 
seno lôgico, y esta dividido generalmente en dos partes: distribuciôn de las celdas y 
direction del canal. En la distribuciôn de las celdas, los componentes primitivos del cir¬ 
cuito se agrupan en las celdas, cada una de las cuales realiza una cierta funciôn. Cada 
celda tiene una caracteristica fija (el tamano y la forma) y requiere un cierto nümero de 
conexiones a cada una de las otras celdas. El objetivo principal es colocar las celdas en 
el chip de manera que no se superpongan y que quede espacio para que los alambres que 
conectan celdas puedan colocarse entre ellas. La direction del canal encuentra una ruta 
especifica para cada alambre por los espacios entre las celdas. Estos problemas de büs- 
queda son extremadamente complejos, pero definitivamente dignos de resolver. En el Ca- 
pitulo 4, veremos algunos algoritmos capaces de resolverlos. 

La navegaciôn de un robot es una generalizaciôn del problema de encontrar una 
ruta descrito anteriormente. Mas que un conjunto discreto de rutas, un robot puede mo- 
verse en un espacio continuo con (en principio) un conjunto infinito de acciones y esta- 
dos posibles. Para un robot circular que se mueve en una superficie plana, el espacio es 
esencialmente de dos dimensiones. Cuando el robot tiene manos y piernas o ruedas que 
se deben controlar también, el espacio de büsqueda llega a ser de muchas dimensiones. 
Lo que se requiere es que las técnicas avanzadas hagan el espacio de büsqueda finito. 
Examinaremos algunos de estos métodos en el Capitulo 25. Ademâs de la complejidad 
del problema, los robots reales también deben tratar con errores en las lecturas de los 
sensores y contrôles del motor. 

La secuenciaciôn para el ensamblaje automâtico por un robot de objetos com¬ 
plejos fue demostrado inicialmente por Freddy (Michie, 1972). Los progresos desde 
enfonces han sido lentos pero seguros, hasta el punto de que el ensamblaje de objetos 
taies como motores eléctricos son econômicamente factibles. En los problemas de en¬ 
samblaje, lo principal es encontrar un orden en los objetos a ensamblar. Si se elige un 
orden equivocado, no habrâ forma de anadir posteriormente una parte de la secuencia 
sin deshacer el trabajo ya hecho. Verificar un paso para la viabilidad de la sucesiôn es 
un problema de büsqueda geométrico dificil muy relacionado con la navegaciôn del ro¬ 
bot. Asi, la génération de sucesores legales es la parte costosa de la secuenciaciôn para 
el ensamblaje. Cualquier algoritmo prâctico debe evitar explorar todo, excepta una 
fraction pequena del espacio de estados. Otro problema de ensamblaje importante es 
el diseno de proteinas, en el que el objetivo es encontrar una secuencia de aminoâci- 
dos que se plegarân en una proteina de très dimensiones con las propiedades adecua- 
das para curar alguna enfermedad. 

En la actualidad, se ha incrementado la demanda de robots software que realicen la 
büsqueda en Internet, la büsqueda de respuestas a preguntas, de information relacio- 
nada o para compras. Esta es una buena aplicaciôn para las técnicas de büsqueda, por- 
que es fâcil concebir Internet como un grafo de nodos (paginas) conectadas por arcos. 
Una descripciôn compléta de büsqueda en Internet se realiza en el Capitulo 10. 
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3.3 Büsqueda de soluciones 


ÂRBOL DE BÜSQUEDA 


NODO DE BÜSQUEDA 


EXPANDIR 

GENERAR 


ESTRATEGIA DE 
BÜSQUEDA 


Hemos formulado algunos problemas, ahora necesitamos resolverlos. Esto se hace me- 
diante büsqueda a través del espacio de estados. Este capitulo se ocupa de las técnicas de 
büsqueda que utilizan un ârbol de büsqueda explicite» generado por el estado inicial y la 
funcion sucesor, definiendo asf el espacio de estados. En general, podemos tener un gra- 
fo de büsqueda mas que un ârbol, cuando el mismo estado puede alcanzarse desde varios 
caminos. Aplazamos, hasta la Secciôn 3.5, el tratar estas complicaciones importantes. 

La Figura 3.6 muestra algunas de las expansiones en el ârbol de büsqueda para en- 
contrar una camino desde Arad a Bucarest. La rafz del ârbol de büsqueda es el nodo de 
büsqueda que corresponde al estado inicial, En(Arad). El primer paso es comprobar si 
éste es un estado objetivo. Claramente es que no, pero es importante comprobarlo de modo 
que podamos resolver problemas como «comenzar en Arad, consigue Arad». Como no 
estamos en un estado objetivo, tenemos que considerar otros estados. Esto se hace ex- 
pandiendo el estado actual; es decir aplicando la funcion sucesor al estado actual y ge- 
nerar asf un nuevo conjunto de estados. En este caso, conseguimos très nuevos estados: 
En(Sibiu), En(Timisoara) y En(Zerind). Ahora debemos escoger cuâl de estas très po- 
sibilidades podemos considerar. 

Esto es la esencia de la büsqueda, llevamos a cabo una opcion y dejamos de lado las 
demâs para mâs tarde, en caso de que la primera opcion no conduzca a una solucion. 
Supongamos que primero elegimos Sibiu. Comprobamos si es un estado objetivo (que 
no lo es) y enfonces expandimos para conseguir En(Arad), En(Fagaras), En(Oradea) y 
En{RimnicüVilcea). Enfonces podemos escoger cualquiera de estas cuatro o volver atrâs 
y escoger Timisoara o Zerind. Continuâmes escogiendo, comprobando y expandiendo 
hasta que se encuentra una solucion o no existen mâs estados para expandir. El estado 
a expandir estâ determinado por la estrategia de büsqueda. La Figura 3.7 describe in- 
formalmente el algoritmo general de büsqueda en ârboles. 

Es importante distinguir entre el espacio de estados y el ârbol de büsqueda. Para el 
problema de büsqueda de un ruta, hay solamente 20 estados en el espacio de estados, 
uno por cada ciudad. Pero hay un nümero infinito de caminos en este espacio de esta¬ 
dos, asf que el ârbol de büsqueda tiene un nümero infinito de nodos. Por ejemplo, los 
très caminos Arad-Sibiu, Arad-Sibiu-Arad, Arad-Sibiu-Arad-Sibiu son los très prime¬ 
ras caminos de una secuencia infinita de caminos. (Obviamente, un buen algoritmo de 
büsqueda évita seguir taies trayectorias; La Secciôn 3.5 nos muestra como hacerlo). 

Hay muchas formas de representar los nodos, pero vamos a suponer que un nodo es 
una estructura de datos con cinco componentes: 

— Estado: el estado, del espacio de estados, que corresponde con el nodo; 

— Nodo Padre: el nodo en el ârbol de büsqueda que ha generado este nodo; 

— AcciÔn: la acciôn que se aplicarâ al padre para generar el nodo; 

— Costo del Camino: el costo, tradicionalmente denotado por g(ri), de un cami¬ 
no desde el estado inicial al nodo, indicado por los punteros a los padres; y 

— Profundidad: el nümero de pasos a los largo del camino desde el estado inicial. 

Es importante recordar la distinciôn entre nodos y estados. Un nodo es una estructura 
de datos usada para representar el ârbol de büsqueda. Un estado corresponde a una 
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FRONTERA 



funciôn BûsQ\JEDA-ÂRBOLEs(problema,estrategia) devuelve una solucion o fallo 
inicializa el ârbol de büsqueda usando el estado inicial del pmblema 

bucle hacer 

si no hay candidatos para expandir entonces devolver fallo 

escoger, de acuerdo a la estrategia, un nodo hoja para expandir 

si el nodo contiene un estado objetivo entonces devolver la correspondiente solucion 

en otro caso expandir el nodo y anadir los nodos resultado al ârbol de büsqueda 


Figura 3.7 Descripciôn informai del algoritmo general de büsqueda en ârboles. 


configuracion del mundo. Asi, los nodos estân en caminos particulares, segün lo defi- 
nido por los punteros del nodo padre, mientras que los estados no lo estân. En la Figu¬ 
ra 3.8 se représenta la estructura de datos del nodo. 

También necesitamos representar la coleccion de nodos que se han generado pero 
todavfa no se han expandido - a esta coleccion se le llama frontera. Cada elemento de 
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N0D0 HO JA 


COLA 


COMPLETITUD 

OPTIMIZACION 



Figura 3.8 Los nodos son estructuras de datos a partir de los cuales se construye el ârbol de büs- 
queda. Cada uno tiene un padre, un estado y varios campos. Las fléchas senalan del hijo al padre. 


la frontera es un nodo hoja, es decir, un nodo sin sucesores en el ârbol. En la Figura 3.6, 
la frontera de cada ârbol consiste en los nodos dibujados con lineas discontinuas. La re- 
presentaciôn mâs simple de la frontera séria como un conjunto de nodos. La estrategia 
de büsqueda serâ una funcion que seleccione de este conjunto el siguiente nodo a ex- 
pandir. Aunque esto sea conceptualmente sencillo, podria ser computacionalmente cos- 
toso, porque la funcion estrategia quizâ tenga que mirar cada elemento del conjunto para 
escoger el mejor. Por lo tanto, nosotros asumiremos que la colecciôn de nodos se im¬ 
plémenta como una cola. Las operaciones en una cola son como siguen: 

— Y{\CEK-COEA{elemento, ...) créa una cola con el(los) elemento(s) dado(s). 

— Vacia ?(cola) devuelve verdadero si no hay ningün elemento en la cola. 

— Primero(co/ ü) devuelve el primer elemento de la cola. 

— Borrar-Primero(co/c?) devuelve Primero(co/üt) y lo borra de la cola. 

— lNSEKTA(eIemento,cola) inserta un elemento en la cola y devuelve la cola resul- 
tado. (Veremos que tipos diferentes de colas insertan los elementos en ôrdenes 
diferentes.) 

— lNSEKYAR-TODO(elementos,cola) inserta un conjunto de elementos en la cola y de¬ 
vuelve la cola resultado. 

Con estas definiciones, podemos escribir una version mâs formai del algoritmo general 
de büsqueda en ârboles. Se muestra en la Figura 3.9. 

Medir el rendimiento de la resoluciôn del problema 

La salida del algoritmo de resoluciôn de problemas es fallo o una soluciôn. (Algunos al- 
goritmos podrian caer en un bucle infinito y nunca devolver una salida.) Evaluaremos 
el rendimiento de un algoritmo de cuatro formas: 

• Completitud: / esta garantizado que el algoritmo encuentre una soluciôn cuando 
esta exista? 

• Optimizaciôn: / cncucntra la estrategia la soluciôn ôptima, segün lo definido en 
la pâgina 62? 
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funciôn Büsqueda-Ârboles (problema frontera) devuelve una solution o fallo 
frontera <— lNSERTA(HACER-NoDo(EsTADO-lNiciAL[p;-oWeff7û]),//wi?era) 

hacer bucle 

si Vacia Kfrontera) entonces devolver fallo. 
noclo <— BoRRAR-PRiMERO^rontera) 

si TEST-OBJETivo[proW<?ma] aplicado al Estado[«o^o] es cierto 
entonces devolver SoLuciÔN(/?<j6fo) 
frontera <— lNSERTAR-ToDO(ExPANDiR(nodo,problema)frontera) 

funciôn ExPANDiR{nodo.problema) devuelve un conjunto de nodos 
sucesores <— conjunto vacio 

para cada (acciôn,resultado) en SucESOR-FN[/5roWé7?7<7](EsTADo[/?<%fo]) hacer 
s <— un nuevo Nodo 
Estado[v] <— resultado 
Nodo-Padre[s] <— nodo 
Acciôn[s] <— acciôn 

COSTO-CAMINO[ 5 ] <— C 0 ST 0 -CAMIN 0 |> 20 £fo] + CoSTO-lNDIVIDUAL(7!0£/o,flCC70«,i) 
PROFUNDIDAD[i] <— PROFUNDIDAD[M0Ü0] + 1 
anadir 5 a sucesores 
devolver sucesores 


Figura 3.9 Algoritmo general de büsqueda en ârboles. (Notemos que el argumento frontera pue- 
de ser una cola vacia, y el tipo de cola afectarâ al orden de la büsqueda.) La funciôn SoluciÔn de¬ 
vuelve la secuencia de acciones obtenida de la forma punteros al padre hasta la raiz. 


COMPLEJIDAD EN 
TIEMPO 


COMPLEJIDAD EN 
ESPACIO 


FACTOR DE 
RAMIFICACIÔN 


COSTO DE LA 
BÙSDUEDA 


• Complejidad en tiempo: /cuânto tarda en encontrar una solucion? 

• Complejidad en espacio: /eu an ta memoria se necesita para el funcionamiento de 
la büsqueda? 

La complejidad en tiempo y espacio siempre se considéra con respecto a alguna medi- 
da de la dificultad del problema. En informâtica teorica, la medida es el tamano del gra- 
fo del espacio de estados, porque el grafo se ve como una estructura de datos explicita 
que se introduce al programa de büsqueda. (El mapa de Rumania es un ejemplo de esto.) 
En IA, donde el grafo esta representado de forma implicita por el estado inicial y la fun- 
cion sucesor y frecuentemente es infinito, la complejidad se expresa en términos de très 
cantidades: b, el factor de ramifîcaciôn o el mâximo nümero de sucesores de cualquier 
nodo; d, la profundidad del nodo objetivo mas superficial; y m, la longitud mâxima de 
cualquier camino en el espacio de estados. 

El tiempo a menudo se mide en términos de nümero de nodos generados 5 durante 
la büsqueda, y el espacio en términos de mâximo nümero de nodos que se almacena en 
memoria. 

Para valorar la eficacia de un algoritmo de büsqueda, podemos considerar el costo 
de la büsqueda (que dépende tipicamente de la complejidad en tiempo pero puede in- 


5 Algunos textos miden el tiempo en términos del nümero de las expansiones del nodo. Las dos medidas se 
diferencian como mucho en un factor b. A nosotros nos parece que el tiempo de ejecuciôn de la expansion 
del nodo aumenta con el nümero de nodos generados en esa expansion. 
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coste total cluir también un término para el uso de la memoria) o podemos utilizar el coste total, 

que combina el costo de la büsqueda y el costo del camino solucion encontrado. Para el 
problema de encontrar una ruta desde Arad hasta Bucarest, el costo de la büsqueda es 
la cantidad de tiempo que ha necesitado la büsqueda y el costo de la solucion es la lon- 
gitud total en kilométras del camino. Asf, para el câlculo del coste total, tenemos que 
sumar kilométras y milisegundos. No hay ninguna conversion entre los dos, pero quizâ 
sea razonable, en este caso, convertir kilométras en milisegundos utilizando una esti- 
maciôn de la velocidad media de un coche (debido a que el tiempo es lo que cuida el 
agente.) Esto permite al agente encontrar un punto optimo de intercambio en el cual el 
câlculo adicional para encontrar que un camino mas corto llegue a ser contraproducen- 
te. El problema mas general de intercambios entre bienes diferentes sera tratado en el 
Capitulo 16. 


3.4 Estrategias de büsqueda no informada 


BÜSQUEDA NO 
INFORMADA 


BÜSQUEDA 

INFORMADA 


BÜSQUEDA 

HEURISTICA 


Esta section trata cinco estrategias de büsqueda englobadas bajo el nombre de büsqueda 
no informada (llamada también büsqueda a ciegas). El término significa que ellas no 
tienen information adicional acerca de los estados mas alla de la que proporciona la 
définition del problema. Todo lo que ellas pueden hacer es generar los sucesores y 
distinguir entre un estado objetivo de uno que no lo es. Las estrategias que saben si un 
estado no objetivo es «mas prometedor» que otro se llaman büsqueda informada o 
büsqueda heuristica; éstas serân tratadas en el Capitulo 4. Todas las estrategias se dis- 
tinguen por el orden de expansion de los nodos. 


BÜSQUEDA PRIMERO 
EN ANCHURA 


Büsqueda primero en anchura 

La büsqueda primero en anchura es una estrategia sencilla en la que se expande pri¬ 
mero el nodo rafz, a continuation se expanden todos los sucesores del nodo raiz, des- 
pués sus sucesores, etc. En general, se expanden todos los nodos a una profundidad en 
el ârbol de büsqueda antes de expandir cualquier nodo del proximo nivel. 

La büsqueda primero en anchura se puede implementar llamando a la Btjsqueda- 
Arboles con una frontera vatia que sea una cola primero en entrar primero en salir 
(FIFO), asegurando que los nodos primeras visitados serân los primeros expandidos. En 
otras palabras, llamando a la Büsqueda-Ârboles(/t7 - o6/cw7ü ( ,Cola-FIFO()) résulta una 
büsqueda primero en anchura. La cola FIFO pone todos los nuevos sucesores genera- 
dos al final de la cola, lo que significa que los nodos mâs superficiales se expanden an¬ 
tes que los nodos mâs profundos. La Figura 3.10 muestra el progreso de la büsqueda en 
un ârbol binario sencillo. 

Evaluemos la büsqueda primero en anchura usando los cuatro criterios de la secciôn 
anterior. Podemos ver fâcilmente que es compléta (si el nodo objetivo mâs superficial 
estâ en una cierta profundidad finita d, la büsqueda primero en anchura lo encontrarâ 
después de expandir todos los nodos mâs superficiales, con tal que el factor de ramifi¬ 
cation b sea finito). El nodo objetivo mâs superficial no es necesariamente el optimo; 
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técnicamente, la büsqueda primero en anchura es optima si el costo del camino es una 
funcion no decreciente de la profundidad del nodo (por ejemplo, cuando todas las ac- 
ciones tienen el mismo coste). 

Hasta ahora, la informacion sobre la büsqueda primero en anchura ha sido buena. 
Para ver por qué no es siempre la estrategia a elegir, tenemos que considerar la cantidad 
de tiempo y memoria que utiliza para completar una büsqueda. Para hacer esto, consi- 
deramos un espacio de estados hipotético donde cada estado tiene b sucesores. La raiz 
del ârbol de büsqueda généra h nodos en el primer nivel, cada uno de ellos généra h no- 
dos mas, teniendo un total de b 2 en el segundo nivel. Cada uno de estos généra b nodos 
mas, teniendo b 3 nodos en el tercer nivel, etcétera. Ahora supongamos que la soluciôn 
esta a una profundidad d. En el peor caso, expandiremos todos excepto el ültimo nodo 
en el nivel d (ya que el objetivo no se expande), generando b d+1 — b nodos en el nivel 
d + 1. Enfonces el nümero total de nodos generados es 

b + b 2 + b 3 + ... + b d + ( b d+l ~ b) = 0(b d+1 ). 

Cada nodo generado debe permanecer en la memoria, porque o es parte de la frontera o 
es un antepasado de un nodo de la frontera. La complejidad en espacio es, por lo tanto, 
la misma que la complejidad en tiempo (mas un nodo para la raiz). 

Los que hacen anâlisis de complejidad estân preocupados (o emocionados, si les gus- 
ta el desafio) por las cotas de complejidad exponencial como 0(b d+ '). La Figura 3.11 
muestra por qué. Se enumera el tiempo y la memoria requerida para una büsqueda pri¬ 
mero en anchura con el factor de ramificaciôn b = 10, para varios valores de profundi- 


Profundidad 

Nodos 

Tiempo 

Memoria 

2 

1.100 

11 segundos 

1 megabyte 

4 

111.100 

11 segundos 

106 megabytes 

6 

10 7 

19 minutos 

10 gigabytes 

8 

10 9 

31 horas 

1 terabytes 

10 

10 11 

129 dfas 

101 terabytes 

12 

10 13 

35 anos 

10 petabytes 

14 

10 15 

3.523 anos 

1 exabyte 

Figura 3.11 Requisitos de tiempo y espacio para la büsqueda primero 

en anchura. Los nü- 

meros que se muestran suponen un factor de ramificaciôn b = 10; 10.000 nodos/segundo; 1.000 
bytes/nodo. 
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dad d de la solucion. La tabla supone que se pueden generar 10.000 nodos por segundo 
y que un nodo requiere 1.000 bytes para almacenarlo. Muchos problemas de büsqueda 
quedan aproximadamente dentro de estas suposiciones (mas o menos un factor de 100) 
cuando se ejecuta en un computador personal modemo. 

Hay dos lecciones que debemos aprender de la Figura 3.11. Primero, son unproblema 
mâs grande los requisitos de memoria para la büsqueda primero en anchura que el tiem- 
po de ejecuciôn. 31 horas no séria demasiado esperar para la solucion de un problema 
importante a profundidad ocho, pero pocos computadores tienen suficientes terabytes 
de memoria principal que lo admitieran. Afortunadamente, hay otras estrategias de büs¬ 
queda que requieren menos memoria. 

La segunda lecciôn es que los requisitos de tiempo son todavia un factor importan¬ 
te. Si su problema tiene una solucion a profundidad 12, entonces (dadas nuestras supo¬ 
siciones) llevarâ 35 anos encontrarla por la büsqueda primero en anchura (o realmente 
alguna büsqueda sin informaciôn). En general, los problemas de büsqueda de comple- 
jidad-exponencial no pueden resolverse por métodos sin informaciôn, salvo casos pe- 
quenos. 


Büsqueda de costo uniforme 


BÜSQUEDA DE COSTO 
UNIFORME 


La büsqueda primero en anchura es ôptima cuando todos los costos son iguales, porque 
siempre expande el nodo no expandido mâs superficial. Con una extension sencilla, po- 
demos encontrar un algoritmo que es ôptimo con cualquier funciôn costo. En vez de ex- 
pandir el nodo mâs superficial, la büsqueda de costo uniforme expande el nodo n con 
el camino de costo mâs pequeno. Notemos que si todos los costos son iguales, es idén- 
tico a la büsqueda primero en anchura. 

La büsqueda de costo uniforme no se preocupa por el nümero de pasos que tiene 
un camino, pero si sobre su coste total. Por lo tanto, éste se meterâ en un bucle infi- 
nito si expande un nodo que tiene una accion de coste cero que conduzca de nuevo al 
mismo estado (por ejemplo, una accion NoOp). Podemos garantizar completitud si el 
costo de cada paso es mayor o igual a alguna constante positiva pequena e. Esta con- 
diciôn es también suficiente para asegurar optimizaciôn. Significa que el costo de un 
camino siempre aumenta cuando vamos por él. De esta propiedad, es fâcil ver que el 
algoritmo expande nodos que incrementan el coste del camino. Por lo tanto, el primer 
nodo objetivo seleccionado para la expansion es la solucion ôptima. (Recuerde que la 
büsqueda en ârboles aplica el test objetivo solo a los nodos que son seleccionados para 
la expansion.) Recomendamos probar el algoritmo para encontrar el camino mâs cor- 
to a Bucarest. 

La büsqueda de costo uniforme estâ dirigida por los costos de los caminos mâs que 
por las profundidades, entonces su complejidad no puede ser fâcilmente caracterizada 
en términos de b y d. En su lugar, C* es el costo de la solucion ôptima, y se supone 
que cada accion cuesta al menos e. Entonces la complejidad en tiempo y espacio del 
peor caso del algoritmo es 0(b^ c * /€ '), la cual puede ser mucho mayor que b d . Esto es 
porque la büsqueda de costo uniforme, y a menudo lo hace, explora los ârboles gran¬ 
des en pequenos pasos antes de explorar caminos que implican pasos grandes y quizâs 
ütiles. Cuando todos los costos son iguales, desde luego, la b^ c " /e ^ es justamente b d . 
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Büsqueda primero en profundidad 


BÜSQUEDA PRIMERO 
EN PROFUNDIDAD 


La busqueda primero en profundidad siempre expande el nodo mâs profundo en la 
frontera actual del ârbol de büsqueda. El progreso de la büsqueda se ilustra en la Figu¬ 
ra 3.12. La büsqueda procédé inmediatamente al nivel mâs profundo del ârbol de büs¬ 
queda, donde los nodos no tienen ningün sucesor. Cuando esos nodos se expanden, son 
quitados de la frontera, asi enfonces la büsqueda «rétrocédé» al siguiente nodo mâs su- 
perficial que todavia tenga sucesores inexplorados. 

Esta estrategia puede implementarse por la Büsqueda-Ârboles con una cola ülti- 
mo en entrar primero en salir (LIFO), también conocida como una pila. Como una al- 
ternativa a la implementacion de la Büsqueda-Ârboles, es comün aplicar la büsqueda 
primero en profundidad con una funcion recursiva que se llama en cada uno de sus hi- 
jos. (Un algoritmo primero en profundidad recursivo incorporando un limite de profun¬ 
didad se muestra en la Figura 3.13.) 

La büsqueda primero en profundidad tiene unos requisitos muy modestos de memoria. 
Necesita almacenar solo un camino desde la raiz a un nodo hoja, junto con los nodos 
hermanos restantes no expandidos para cada nodo del camino. Una vez que un nodo se 











86 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


BÜSQUEDA HACIA 
ATRÂS 


funciôn BüsQUEDA-PROFUNDiDAD-LiMiTADA(p/-oWem«,/»w7e) devuelve una solucion, o 
fallo/corte 

devolver BPL-RECURSivo(HACER-NoDo(EsTADO-lNiciAL[p/-oW<™fl]),/>7-oW<?»za,//»»fe) 

funciôn BPL-REC\jRSivo(nodo,problema,lùnite) devuelve una solucion, o fallo/corte 
ocurriô un corte <— falso 

si TEST-OBJETivo[/troWeff;a](EsTADo[«o<i 0 ]) enfonces devolver SoLUCiÔN(«c>ûfo) 
en caso contrario si Profundidad[«o^o] = limite enfonces devolver corte 
en caso contrario para cada sucesor en ExPANDiR(nodo,problema) hacer 
resultado <— BPL-Recursivo (sucesor,problema .limite) 
si resultado = corte enfonces ocurriô un corte <— verdadero 
en otro caso si resultado ¥=fallo enfonces devolver resultado 
si ocurriô un corte? entonces devolver corte en caso contrario devolver fallo 


Figura 3.13 Implementacion recursiva de la büsqueda primera en profundidad. 


ha expandido, se puede quitar de la memoria tan pronto como todos su descendientes 
han sido explorados. (Véase Figura 3.12.) Para un espacio de estados con factor de ra- 
mificaciôn b y mâxima profundidad m, la büsqueda primero en profundidad requiere al- 
macenar solo bm + 1 nodos. Utilizando las mismas suposiciones que con la Figura 3.11, 
y suponiendo que los nodos a la misma profundidad que el nodo objetivo no tienen nin- 
gün sucesor, nos encontramos que la büsqueda primero en profundidad requeriria 118 
kilobytes en vez de diez petabytes a profundidad d = 12, un factor de diez billones de 
veces menos de espacio. 

Una variante de la büsqueda primero en profundidad, llamada büsqueda hacia 
atrâs, utiliza todavia menos memoria. En la büsqueda hacia atrâs, solo se généra un su¬ 
cesor a la vez; cada nodo parcialmente expandido recuerda qué sucesor se expande a con- 
tinuaciôn. De esta manera, solo se necesita O {ni) memoria mas que el 0{bm) anterior. 
La büsqueda hacia atrâs facilita aün otro ahorro de memoria (y ahorro de tiempo): la idea 
de generar un sucesor modificando directamente la descripciôn actual del estado mas que 
copiarlo. Esto reduce los requerimientos de memoria a solamente una descripciôn del 
estado y 0(m) acciones. Para hacer esto, debemos ser capaces de deshacer cada modi- 
ficaciôn cuando volvemos hacia atrâs para generar el siguiente sucesor. Para problemas 
con grandes descripciones de estados, como el ensamblaje en robôtica, estas técnicas son 
criticas para tener éxito. 

El inconveniente de la büsqueda primero en profundidad es que puede hacer una elec- 
ciôn equivocada y obtener un camino muy largo (o infinito) aun cuando una elecciôn 
diferente llevaria a una solucion cerca de la raiz del ârbol de büsqueda. Por ejemplo, en 
la Figura 3.12, la büsqueda primero en profundidad explorarâ el subârbol izquierdo en¬ 
tera incluso si el nodo C es un nodo objetivo. Si el nodo J fuera también un nodo obje¬ 
tivo, entonces la büsqueda primero en profundidad lo devolveria como una solucion; de 
ahi, que la büsqueda primero en profundidad no es ôptima. Si el subârbol izquierdo fue¬ 
ra de profundidad ilimitada y no contuviera ninguna solucion, la büsqueda primero en 
profundidad nunca terminaria; de ahi, que no es completo. En el caso peor, la büsque¬ 
da primero en profundidad generarâ todos los nodos 0(b m ) del ârbol de büsqueda, don- 
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BÜSQUEDA DE 
PROFUNDIDAD 
LIMITADA 


DIÂMETRO 


BÜSQUEDA CON 

PROFUNDIDAD 

ITERATIVA 


de m es la profundidad mâxima de cualquier nodo. Nôtese que m puede ser mucho mas 
grande que d (la profundidad de la solucion mas superficial), y es infinito si el ârbol es 
ilimitado. 

Busqueda de profundidad limitada 

Se puede aliviar el problema de ârboles ilimitados aplicando la büsqueda primero en pro¬ 
fundidad con un limite de profundidad £ predeterminado. Es decir, los nodos a profun¬ 
didad £ se tratan como si no tuvieran ningün sucesor. A esta aproximacion se le llama 
busqueda de profundidad limitada. El limite de profundidad resuelve el problema del 
camino infinito. Lamentablemente, también introduce una fuente adicional de incom- 
pletitud si escogemos £ < d, es decir, el objetivo esta fuera del limite de profundidad. 
(Esto no es improbable cuando d es desconocido.) La büsqueda de profundidad limita¬ 
da también sera no ôptima si escogemos £ > d. Su complejidad en tiempo es 0(7:/) y su 
complejidad en espacio es 0(b£). La büsqueda primero en profundidad puede verse como 
un caso especial de büsqueda de profundidad limitada con £ = °°. 

A veces, los limites de profundidad pueden estar basados en el conocimiento del pro¬ 
blema. Por ejemplo, en el mapa de Rumania hay 20 ciudades. Por lo tanto, sabemos que 
si hay una solucion, debe ser de longitud 19 como mucho, entonces £ = 19 es una op- 
cion posible. Pero de hecho si estudiâramos el mapa con cuidado, descubrirfamos que 
cualquier ciudad puede alcanzarse desde otra como mucho en nueve pasos. Este nüme- 
ro, conocido como el diâmetro del espacio de estados, nos da un mejor limite de pro¬ 
fundidad, que conduce a una büsqueda con profundidad limitada mas eficiente. Para la 
mayor parte de problemas, sin embargo, no conoceremos un limite de profundidad bue- 
no hasta que hayamos resuelto el problema. 

La büsqueda de profundidad limitada puede implementarse con una simple modifi- 
cacion del algoritmo general de büsqueda en ârboles o del algoritmo recursivo de büs¬ 
queda primero en profundidad. En la Figura 3.13 se muestra el pseudocodigo de la büs¬ 
queda recursiva de profundidad limitada. Notemos que la büsqueda de profundidad 
limitada puede terminar con dos clases de fracaso: el valor d e fracaso estândar indicando 
que no hay ninguna solucion; el valor de corte indicando que no hay solucion dentro del 
limite de profundidad. 


Büsqueda primero en profundidad con profundidad 
iterativa 

La busqueda con profundidad iterativa (o büsqueda primero en profundidad con pro¬ 
fundidad iterativa) es una estrategia general, usada a menudo en combinacion con la büs¬ 
queda primero en profundidad, la cual encuentra el mejor limite de profundidad. Esto 
se hace aumentando gradualmente el limite (primero 0, después 1, después 2, etcétera) 
hasta que encontramos un objetivo. Esto ocurrirâ cuando el limite de profundidad alcanza 
d, profundidad del nodo objetivo. Se muestra en la Figura 3.14 el algoritmo. La pro¬ 
fundidad iterativa combina las ventajas de la büsqueda primero en profundidad y pri¬ 
mero en anchura. En la büsqueda primero en profundidad, sus exigencias de memoria 
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funciôn BüsQUEDA-PROFUNDiDAD-lTERATiVAtproWéWfl) devuelve una soluciôn, o fallo 
entradas: problema, un problema 

para profundidad <— 0 a 00 hacer 

resultado <— BÛSQUEDA-PROF\JTSDiDAD-LiMi7ADA(problema,profundidad) 
si resultado ¥= corte entonces devolver resultado 


Figura 3.14 Algoritmo de büsqueda de profundidad iterativa, el cual aplica repetidamente la büs- 
queda de profundidad limitada incrementando el limite. Termina cuando se encuentra una soluciôn 
o si la büsqueda de profundidad limitada devuelve fracaso, significando que no existe soluciôn. 



son muy modestas: 0(bd) para ser exacto. La büsqueda primero en anchura, es compléta 
cuando el factor de ramificacion es finito y ôptima cuando el coste del camino es una 
funciôn que no disminuye con la profundidad del nodo. La Figura 3.15 muestra cuatro 
iteraciones de la BÜSQUEDA-Profundidad-Iterativa sobre un ârbol binario de büsque¬ 
da, donde la soluciôn se encuentra en la cuarta iteraciôn. 

La büsqueda de profundidad iterativa puede parecer derrochadora, porque los esta- 
dos se generan mültiples veces. Pero esto no es muy costoso. La razôn es que en un âr¬ 
bol de büsqueda con el mismo (o casi el mismo) factor de ramificacion en cada nivel, la 
mayor parte de los nodos esta en el nivel inferior, entonces no importa mucho que los 
niveles superiores se generen mültiples veces. En una büsqueda de profundidad iterati¬ 
va, los nodos sobre el nivel inferior (profundidad d ) son generados una vez, los ante- 
riores al nivel inferior son generados dos veces, etc., hasta los hijos de la raiz, que son 
generados d veces. Entonces el nümero total de nodos generados es 

N(BPI) = ( d)b + {d- 1 )b 2 + ... + (1 )b d , 

que da una complejidad en tiempo de 0(b d ). Podemos compararlo con los nodos gene¬ 
rados por una büsqueda primero en anchura: 

N (BPA) = b + b 2 + ... + b d + (b d+1 - b). 

Notemos que la büsqueda primero en anchura généra algunos nodos en profundidad 
d + 1, mientras que la profundidad iterativa no lo hace. El resultado es que la profun¬ 
didad iterativa es en realidad mas râpida que la büsqueda primero en anchura, a pesar 
de la generaciôn repetida de estados. Por ejemplo, si b = 10 y d = 5, los nümeros son 

N(BPI) = 50 + 400 + 3.000 + 20.000 + 100.000 = 123.450 

N(BPA) = 10 + 100 + 1.000 + 10.000 + 100.000 + 999.990 = 1.111.100 

En general, la profundidad iterativa es el método de büsqueda no informada preferido cuan¬ 
do hay un espacio grande de büsqueda y no se conoce la profundidad de la soluciôn. 

La büsqueda de profundidad iterativa es anâloga a la büsqueda primero en anchura 
en la cual se explora, en cada iteraciôn, una capa compléta de nuevos nodos antes de con- 
tinuar con la siguiente capa. Pareceria que vale la pena desarrollar una büsqueda itera¬ 
tiva anâloga a la büsqueda de coste uniforme, heredando las garantias de optimizaciôn 
del algoritmo evitando sus exigencias de memoria. La idea es usar limites crecientes de 
costo del camino en vez de aumentar limites de profundidad. El algoritmo que résulta, 
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BÜSQUEDA DE 
LONGITUD ITERATIVA 



llamado bûsqueda de longitud iterativa, se explora en el Ejercicio 3.11. Résulta, la- 
mentablemente, que la longitud iterativa incurre en gastos indirectos sustanciales com- 
parado con la bûsqueda de coste uniforme. 

Bûsqueda bidireccional 

La idea de la bûsqueda bidireccional es ejecutar dos bûsquedas simultâneas: una hacia 
delante desde el estado inicial y la otra hacia atrâs desde el objetivo, parando cuando las 
dos bûsquedas se encuentren en el centra (Figura 3.16). La motivaciôn es que b d/1 + b d/: 
es mucho menor que b d , o en la figura, el area de los dos circulos pequenos es menor 
que el area de un circulo grande centrado en el inicio y que alcance al objetivo. 

La bûsqueda bidireccional se implémenta teniendo una o dos bûsquedas que com- 
prueban antes de ser expandido si cada nodo esta en la frontera del otro ârbol de bûs- 
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queda; si esto ocurre, se ha encontrado una soluciôn. Por ejemplo, si un problema tiene 
una soluciôn a profundidad d — 6, y en cada direcciôn se ejecuta la büsqueda primero 
en anchura, enfonces, en el caso peor, las dos büsquedas se encuentran cuando se han 
expandido todos los nodos excepto uno a profundidad 3. Para b = 10, esto significa un 
total de 22.200 nodos generados, comparado con 11.111.100 para una büsqueda prime¬ 
ro en anchura estândar. Vcrificar que un nodo pertenece al otro ârbol de büsqueda se puede 
hacer en un tiempo constante con una tabla hash, asi que la complejidad en tiempo de 
la büsqueda bidireccional es 0(b d/2 ). Por lo menos uno de los ârboles de büsqueda se 
debe mantener en memoria para que se pueda hacer la comprobaciôn de pertenencia, de 
ahi que la complejidad en espacio es también 0{b d/2 ). Este requerimiento de espacio es 
la debilidad mas significativa de la büsqueda bidireccional. El algoritmo es completo y 
ôptimo (para costos uniformes) si las büsquedas son primero en anchura; otras combi- 
naciones pueden sacrificar la completitud, optimizaciôn, o ambas. 

La reducciôn de complejidad en tiempo hace a la büsqueda bidireccional atractiva, 
predecesores pero ^cômo busca hacia atrâs? Esto no es tan fâcil como suena. Sean los predecesores 

de un nodo n, Pred(ri), todos los nodos que tienen como un sucesor a n. La büsqueda bi¬ 
direccional requiere que Pred{ri) se calcule eficientemente. El caso mas fâcil es cuando 
todas las acciones en el espacio de estados son réversibles, asi que Pred(n) = Succ(n). 
Otro caso puede requérir ser ingenioso. 

Consideremos la pregunta de qué queremos decir con «el objetivo» en la büsqueda 
«hacia atrâs». Para el 8-puzle y para encontrar un camino en Rumania, hay solamente 
un estado objetivo, entonces la büsqueda hacia atrâs se parece muchisimo a la büsque¬ 
da hacia delante. Si hay varios estados objetivo explicitamente catalogados (por ejem¬ 
plo, los dos estados objetivo sin suciedad de la Figura 3.3) podemos construir un nuevo 
estado objetivo ficticio cuyos predecesores inmediatos son todos los estados objetivo 
reales. Alternativamente, algunos nodos generados redundantes se pueden evitar vien- 
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do el conjunto de estados objetivo como uno solo, cada uno de cuyos predecesores es 
también un conjunto de estados (especificamente, el conjunto de estados que tienen a 
un sucesor en el conjunto de estados objetivo. Véase también la Seccion 3.6). 

El caso mas dificil para la büsqueda bidireccional es cuando el test objetivo da solo 
una descripcion implicita de algün conjunto posiblemente grande de estados objetivo, 
por ejemplo, todos los estados que satisfacen el test objetivo «jaque mate» en el aje- 
drez. Una büsqueda hacia atrâs necesitaria construir las descripciones de «todos los es¬ 
tados que llevan al jaque mate al mover m x », etcétera; y esas descripciones tendrian que 
ser probadas de nuevo con los estados generados en la büsqueda hacia delante. No hay 
ninguna manera general de hacer esto eficientemente. 


Comparaciôn de las estrategias de büsqueda no informada 

La Figura 3.17 compara las estrategias de büsqueda en términos de los cuatro criterios 
de evaluaciôn expuestos en la Seccion 3.4. 


Criterio 

Primero 
en anchura 

Costo 

uniforme 

Primero en 
profundidad 

Profundidad 

limitada 

Profundidad 

iterativa 

Bidireccional 
(si aplicable) 

^Compléta? 

Sri 

Sri' 4 

No 

No 

Sri 

Sri'** 

Tiempo 

0(b d+l ) 

0(b ïc ’ M ) 

0(b m ) 

0(b e ) 

0(b d ) 

0(b d/2 ) 

Espacio 

0(b d+l ) 

0(& rc * /el ) 

0(bm) 

0(b€) 

0{bd) 

0(b d/1 ) 

£ Optimal? 

Sri 

Si 

No 

No 

Sri 

Sri' 4 


Figura 3.17 Evaluaciôn de estrategias de büsqueda. b es el factor de ramificaciôn; d es la pro- 
fundidad de la soluciôn mas superficial; m es la màxima profundidad del ârbol de büsqueda; ( es 
el limite de profundidad. Los superindice significan lo siguiente: a compléta si h es finita; 4 com¬ 
pléta si los costos son > e para e positivo ; c optimal si los costos son iguales; d si en ambas direc- 
ciones se utiliza la büsqueda primero en anchura. 


3.5 Evitar estados repetidos 


Hasta este punto, casi hemos ignorado una de las complicaciones mas importantes al pro- 
ceso de büsqueda: la posibilidad de perder tiempo expandiendo estados que ya han sido 
visitados y expandidos. Para algunos problemas, esta posibilidad nunca aparece; el 
espacio de estados es un ârbol y hay solo un camino a cada estado. La formulacion efi- 
ciente del problema de las ocho reinas (donde cada nueva reina se coloca en la colum- 
na vacia de mas a la izquierda) es eficiente en gran parte a causa de esto (cada estado se 
puede alcanzar solo por un camino). Si formulamos el problema de las ocho reinas para 
poder colocar una reina en cualquier columna, entonces cada estado con n reinas se puede 
alcanzar por n\ caminos diferentes. 

Para algunos problemas, la repeticiôn de estados es inévitable. Esto incluye todos 
los problemas donde las acciones son réversibles, como son los problemas de büsque- 
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REJILLA 

RECTANGULAR 



da de rutas y los puzles que deslizan sus piezas. Los ârboles de la büsqueda para estos 
problemas son infinitos, pero si podamos parte de los estados repetidos, podemos cor- 
tar el ârbol de büsqueda en un tamano finito, generando solo la parte del ârbol que atra- 
viesa el grafo del espacio de estados. Considerando solamente el ârbol de büsqueda has- 
ta una profundidad fija, es fâcil encontrar casos donde la eliminacion de estados repetidos 
produce una reduccion exponencial del coste de la büsqueda. En el caso extremo, un es¬ 
pacio de estados de tamano d + 1 (Figura 3.18(a)) se convierte en un ârbol con 2 d ho- 
jas (Figura 3.18(b)). Un ejemplo mâs realista es la rejilla rectangular, como se ilustra 
en la Figura 3.18(c). Sobre una rejilla, cada estado tiene cuatro sucesores, enfonces el 
ârbol de büsqueda, incluyendo estados repetidos, tiene 4 d hojas; pero hay solo 2 d 2 esta¬ 
dos distintos en d pasos desde cualquier estado. Para d = 20, significa aproximadamente 
un billon de nodos, pero aproximadamente 800 estados distintos. 

Entonces, si el algoritmo no détecta los estados repetidos, éstos pueden provocar que 
un problema resoluble llegue a ser irresoluble. La deteccion por lo general significa la 
comparacion del nodo a expandir con aquellos que han sido ya expandidos; si se encuentra 
un emparejamiento, entonces el algoritmo ha descubierto dos caminos al mismo estado 
y puede desechar uno de ellos. 

Para la büsqueda primero en profundidad, los ünicos nodos en memoria son aquellos 
del camino desde la raiz hasta el nodo actual. La comparacion de estos nodos permite 
al algoritmo descubrir los caminos que forman ciclos y que pueden eliminarse in- 
mediatamente. Esto estâ bien para asegurar que espacios de estados finitos no hagan 
ârboles de büsqueda infinitos debido a los ciclos; lamentablemente, esto no évita la pro¬ 
lifération exponencial de caminos que no forman ciclos, en problemas como los de la 
Figura 3.18. El ünico modo de evitar éstos es guardar mâs nodos en la memoria. Hay 
una compensation fundamental entre el espacio y el tiempo. Los algoritmos que olvi- 
dan su historia estân condenados a repetirla. 
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Figura 3.18 Espacios de estados que généra un ârbol de büsqueda exponencialmente mâs gran¬ 
de. (a) Un espacio de estados en el cual hay dos acciones posibles que conducen de A a B, dos de 
B a C, etcétera. El espacio de estados contiene d + 1 estados, donde d es la profundidad mâxima. 
(b) Correspondiente ârbol de büsqueda, que tiene 2 d ramas correspondientes a 2' 1 caminos en el 
espacio. (c) Un espacio rejilla rectangular. Se muestran en gris los estados dentro de dos pasos desde 
el estado inicial (A). 
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LISTA CERRADA 

LISTA ABIERTA 


Si un algoritmo recuerda cada estado que ha visitado, enfonces puede verse como la ex- 
ploracion directamente del grafo de espacio de estados. Podemos modificar el algorit¬ 
mo general de BÜSQUEDA-Arboles para incluir una estructura de datos llamada lista ce- 
rrada, que almacene cada nodo expandido. (A veces se llama a la frontera de nodos no 
expandidos lista abierta.) Si el nodo actual se empareja con un nodo de la lista cerra- 
da, se élimina en vez de expandirlo. Al nuevo algoritmo se le llama BÜSQUEDA-Grafos. 
Sobre problemas con muchos estados repetidos, la BÜSQUEDA-Grafos es mucho mas efi- 
ciente que la BÜSQUEDA-Arboles. Los requerimientos en tiempo y espacio, en el caso 
peor, son proporcionales al tamano del espacio de estados. Esto puede ser mucho mas 
pequeno que O (b' 1 ). 

La optimizacion para la büsqueda en grafos es una cuestion dificil. Dijimos antes 
que cuando se détecta un estado repetido, el algoritmo ha encontrado dos caminos al 
mismo estado. El algoritmo de Büsqueda-Grafos de la Figura 3.19 siempre desecha el 
camino recién descubierto; obviamente, si el camino recién descubierto es mas corto que 
el original, la Büsqueda-Grafos podria omitir una solucion optima. Afortunadamente, 
podemos mostrar (Ejercicio 3.12) que esto no puede pasar cuando utilizamos la büsqueda 
de coste uniforme o la büsqueda primera en anchura con costos constantes; de ahi, que 
estas dos estrategias optimas de büsqueda en arboles son también estrategias optimas de 
büsqueda en grafos. La büsqueda con profundidad iterativa, por otra parte, utiliza la ex¬ 
pansion primero en profundidad y fâcilmente puede seguir un camino suboptimo a un 
nodo antes de encontrar el optimo. De ahi, la büsqueda en grafos de profundidad itera¬ 
tiva tiene que comprobar si un camino recién descubierto a un nodo es mejor que el ori¬ 
ginal, y si es asi, podria tener que revisar las profundidades y los costos del camino de 
los descendientes de ese nodo. 

Notemos que el uso de una lista cerrada significa que la büsqueda primero en pro¬ 
fundidad y la büsqueda en profundidad iterativa tienen unos requerimientos lineales en 
espacio. Como el algoritmo de Büsqueda-Grafos mantiene cada nodo en memoria, al- 
gunas büsquedas son irrealizables debido a limitaciones de memoria. 


funciôn BüsQUEDA-GRAFOs(proWema,/;w;fe/'a) devuelve una solucion, o fallo 
cerrado <— conjunto vacio 

frontera <— lNSERTAR(HACER-NoDo(EsTADO-lNiciALb>roft/e»7<3]),/roMt(’/-L7) 

bucle hacer 

si Vacia Kfrontera) entonces devolver fallo 
nodo <r- BORRAR-PRIMERO(//W!tera) 

si TEST-OBJETivo[/T;-ofe/e/7ifl](EsTADo[«oiio]) entonces devolver Soluciôn(«oüo) 
si Estado[«ol/o] no esta en cerrado entonces 
anadir EsTADOfnoüG] a cerrado 

frontera lNSERTAR-ToDO(ExPANDiR(nodo,problema),frontera) 


Figura 3.19 Algoritmo general de büsqueda en grafos. El conjunto cerrado puede implementar- 
se como una tabla hash para permitir la comprobaciôn eficiente de estados repetidos. Este algorit¬ 
mo supone que el primer camino a un estado .s es el mâs barato (véase el texto). 
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3.6 Büsqueda con informacion parcial 


En la Secciôn 3.3 asumimos que el entorno es totalmente observable y determinista y 
que el agente conoce cuâles son los efectos de cada accion. Por lo tanto, el agente pue- 
de calcular exactamente cuâl es el estado resultado de cualquier secuencia de acciones 
y siempre sabe en qué estado esta. Su percepciôn no proporciona ninguna nueva infor- 
maciôn después de cada accion. / ; Qué pasa cuando el conocimiento de los estados o ac¬ 
ciones es incompleto? Encontramos que diversos tipos de incompletitud conducen a très 
tipos de problemas distintos: 

1. Problemas sin sensores (también llamados problemas conformados): si el 
agente no tiene ningün sensor, entonces (por lo que sabe) podria estar en uno de 
los posibles estados iniciales, y cada accion por lo tanto podria conducir a uno 
de los posibles estados sucesores. 

2. Problemas de contingencia: si el entorno es parcialmente observable o si las 
acciones son inciertas, entonces las percepciones del agente proporcionan nue¬ 
va informacion después de cada accion. Cada percepciôn posible define una con¬ 
tingencia que debe de planearse. A un problema se le llama entre adversarios 
si la incertidumbre esta causada por las acciones de otro agente. 

3. Problemas de exploraciôn: cuando se desconocen los estados y las acciones 
del entorno, el agente debe actuar para descubrirlos. Los problemas de explo¬ 
raciôn pueden verse como un caso extremo de problemas de contingencia. 

Como ejemplo, utilizaremos el entorno del mundo de la aspiradora. Recuerde que el es- 
pacio de estados tiene ocho estados, como se muestra en la Figura 3.20. Hay très acciones 
( hquierda, Derecha y Aspirar) y el objetivo es limpiar toda la suciedad (estados 7 y 8). 
Si el entorno es observable, determinista, y completamente conocido, entonces el pro¬ 
blema es trivialmente resoluble por cualquiera de los algoritmos que hemos descrito. Por 
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Figura 3.20 Los ocho posibles estados del mundo de la aspiradora. 
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ejemplo, si el estado inicial es 5, entonces la secuencia de acciones [Derecha, Aspirar ] 
alcanzarâ un estado objetivo, 8. El resto de esta seccion trata con las versiones sin sen- 
sores y de contingencia del problema. Los problemas de exploracion se tratan en la Sec¬ 
cion 4.5, los problemas entre adversarios en el Capitulo 6. 

Problemas sin sensores 

Supongamos que el agente de la aspiradora conoce todos los efectos de sus acciones, 
pero no tiene ningün sensor. Entonces solo sabe que su estado inicial es uno del conjunto 
{1, 2, 3, 4, 5, 6, 7, 8 (. Quizâ supongamos que el agente esta desesperado, pero de he- 
cho puede hacerlo bastante bien. Como conoce lo que hacen sus acciones, puede, por 
ejemplo, calcular que la accion Derecha produce uno de los estados {2,4, 6, 8 ), y la se¬ 
cuencia de accion [Derecha, Aspirar ] siempre terminarâ en uno de los estados {4, 8}. 
Finalmente, la secuencia [ Derecha, Aspirar, Izquierda, Aspirar] garantiza alcanzar el es¬ 
tado objetivo 7 sea cual sea el estado inicio. Decimos que el agente puede coaccionar 
coacciôn al mundo en el estado 7, incluso cuando no sepa dônde comenzô. Resumiendo: cuando 

el mundo no es completamente observable, el agente debe decidir sobre los conjuntos 
de estados que podria poner, mas que por estados simples. Llamamos a cada conjunto 
de estados un estado de creencia, representando la creencia actual del agente con los 
estado de creencia estados posibles fisicos en los que podria estar. (En un ambiente totalmente observable, 
cada estado de creencia contiene un estado fîsico.) 

Para resolver problemas sin sensores, buscamos en el espacio de estados de creencia 
mas que en los estados fisicos. El estado inicial es un estado de creencia, y cada accion 
aplica un estado de creencia en otro estado de creencia. Una accion se aplica a un estado 
de creencia uniendo los resultados de aplicar la accion a cada estado fîsico del estado de 
creencia. Un camino une varios estados de creencia, y una solucion es ahora un camino 
que conduce a un estado de creencia, todos de cuyos miembros son estados objetivo. La 
Figura 3.21 muestra el espacio de estados de creencia accesible para el mundo determi- 
nista de la aspiradora sin sensores. Hay solo 12 estados de creencia accesibles, pero el 
espacio de estados de creencia entero contiene todo conjunto posible de estados fisicos, 
por ejemplo, 2 8 = 256 estados de creencia. En general, si el espacio de estados fîsico tie¬ 
ne S estados, el espacio de estados de creencia tiene 2 S estados de creencia. 

Nuestra discusion hasta ahora de problemas sin sensores ha supuesto acciones de- 
terministas, pero el anâlisis es esencialmente el mismo si el entorno es no determinista, 
es decir, si las acciones pueden tener varios resultados posibles. La razon es que, en 
ausencia de sensores, el agente no tiene ningün modo de decir qué resultado ocurrio en 
realidad, asi que varios resultados posibles son estados fisicos adicionales en el estado 
de creencia sucesor. Por ejemplo, supongamos que el entorno obedece a la ley de 
Murphy: la llamada accion de Aspirar a veces deposita suciedad en la alfombra pero solo 
si no ha ninguna suciedad alli 6 . Entonces, si Aspirar se aplica al estado fîsico 4 (mirar 
la Figura 3.20), hay dos resultados posibles: los estados 2 y 4. Aplicado al estado de 


6 Suponemos que la mayorîa de los lectores afrontan problemas similares y pueden simpatizar con nuestro 
agente. Nos disculpamos a los duenos de los aparatos electrodomésticos modemos y efîcientes que no pue¬ 
den aprovecharse de este dispositivo pedagogico. 
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Figura 3.21 La parte accesible del espacio de estados de creencia para el mundo determinista de 
la aspiradora sin sensores. Cada caja sombreada corresponde a un estado de creencia simple. Des- 
de cualquier punto, el agente esta en un estado de creencia particular pero no sabe en qué estado 
fïsico esta. El estado de creencia inicial (con ignorancia compléta) es la caja central superior. Las 
acciones se representan por arcos etiquetados. Los autoarcos se omiten por claridad. 


creencia inicial, {1, 2, 3, 4, 5, 6, 7 ,8 }, Aspirar conduce al estado de creencia que es la 
union de los conjuntos resultados para los ocho estados fisicos. Calculândolos, encon- 
tramos que el nuevo estado de creencia es {1, 2, 3, 4, 5, 6, 7, 8}. jAsi, para un agente 
sin sensores en el mundo de la ley de Murphy, la accion Aspirar déjà el estado de cre¬ 
encia inalterado! De hecho, el problema es no resoluble. (Véase el Ejercicio 3.18.) Por 
intuiciôn, la razon es que el agente no puede distinguir si el cuadrado actual esta sucio 
y de ahi que no puede distinguir si la accion Aspirar lo limpiarâ o crearâ mas suciedad. 


Problemas de contingencia 


PROBLEMA DE 
CONTINGENCIA 


Cuando el entorno es tal que el agente puede obtener nueva informacion de sus sensores 
después de su actuacion, el agente afronta problemas de contingencia. La soluciôn en 
un problema de contingencia a menudo toma la forma de un ârbol, donde cada rama se 
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puede seleccionar segün la percepciôn recibida en ese punto del ârbol. Por ejemplo, su- 
pongamos que el agente esta en el mundo de la ley de Murphy y que tiene un sensor de 
posiciôn y un sensor de suciedad local, pero no tiene ningün sensor capaz de detectar la 
suciedad en otros cuadrados. Asi, la percepciôn [/, Sucio] significa que el agente esta en 
uno de los estados {1, 3}. El agente podria formular la secuencia de acciones \Aspirar, 
Derecha, Aspirar\. Aspirar cambiaria el estado al {5, 7 ), y el mover a la derecha debe- 
ria entonces cambiar el estado al {6, 8 (. La ejecuciôn de la acciôn final de Aspirar en el 
estado 6 nos lleva al estado 8, un objetivo, pero la ejecuciôn en el estado 8 podria llevar- 
nos para atrâs al estado 6 (segün la ley de Murphy), en el caso de que el plan falle. 

Examinando el espacio de estados de creencia para esta version del problema, fâ- 
cilmente puede determinarse que ninguna secuencia de acciones rigida garantiza una 
soluciôn a este problema. Hay, sin embargo, una soluciôn si no insistimos en una se¬ 
cuencia de acciones rigida: 

[Aspirar , Derecha , si [D,Suciedad] entonces Aspirar]. 

Esto amplia el espacio de soluciones para incluir la posibilidad de seleccionar acciones ba- 
sadas en contingencias que surgen durante la ejecuciôn. Muchos problemas en el mundo 
real, fisico, son problemas de contingencia, porque la predicciôn exacta es imposible. Por 
esta razôn, todas las personas mantienen sus ojos abiertos mientras andan o conducen. 

Los problemas de contingencia a veces permiten soluciones puramente secuencia- 
les. Por ejemplo, considéré el mundo de la ley de Murphy totalmente observable. Las 
contingencias surgen si el agente realiza una acciôn Aspirar en un cuadrado limpio, por¬ 
que la suciedad podria o no ser depositada en el cuadrado. Mientras el agente nunca haga 
esto, no surge ninguna contingencia y hay una soluciôn secuencial desde cada estado ini- 
cial (Ejercicio 3.18). 

Los algoritmos para problemas de contingencia son mas complejos que los algoritmos 
estândar de büsqueda de este capitulo; ellos serân tratados en el Capitulo 12. Los proble¬ 
mas de contingencia también se prestan a un diseno de agente algo diferente, en el cual el 
agente puede actuar antes de que haya encontrado un plan garantizado. Esto es ütil porque 
mas que considerar por adelantado cada posible contingencia que podria surgir durante la 
ejecuciôn, es a menudo mejor comenzar a actuar y ver qué contingencias surgen realmen- 
te. Entonces el agente puede seguir resolviendo el problema, teniendo en cuenta la infor- 
intercalar maciôn adicional. Este tipo de intercalar la büsqueda y la ejecuciôn es también ütil para 

problemas de exploraciôn {véase la Secciôn 4.5) y para juegos ( véase el Capitulo 6). 


3.7 Resumen 


Este capitulo ha introducido métodos en los que un agente puede seleccionar acciones 
en los ambientes deterministas, observables, estâticos y completamente conocidos. En 
taies casos, el agente puede construir secuencias de acciones que alcanzan sus objeti- 
vos; a este proceso se le llama büsqueda. 

• Antes de que un agente pueda comenzar la büsqueda de soluciones, debe formu¬ 
lar un objetivo y luego usar dicho objetivo para formular un problema. 
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• Un problema consiste en cuatro partes: el estado inicial, un conjunto de acciones, 
una funciôn para el test objetivo, y una funciôn de costo del camino. El entomo 
del problema se représenta por un espacio de estados. Un camino por el espacio 
de estados desde el estado inicial a un estado objetivo es una soluciôn. 

• Un algoritmo sencillo y general de BÜSQUEDA-Ârbol puede usarse para resolver 
cualquier problema; las variantes especificas del algoritmo incorporan estrategias 
diferentes. 

• Los algoritmos de büsqueda se juzgan sobre la base de completitud, optimiza- 
ciôn, complejidad en tiempo y complejidad en espacio. La complejidad dépende 
de b, factor de ramificacion en el espacio de estados, y d, profundidad de la solu¬ 
ciôn mas superficial. 

• La büsqueda primero en anchura selecciona para su expansion el nodo no 
expandido mas superficial en el ârbol de büsqueda. Es completo, ôptimo para cos- 
tos unidad, y tiene la complejidad en tiempo y en espacio de 0{b d ). La compleji¬ 
dad en espacio lo hace poco prâctico en la mayor parte de casos. La büsqueda de 
coste uniforme es similar a la büsqueda primero en anchura pero expande el 
nodo con el costo mas pequeno del camino, g(n). Es completo y ôptimo si el cos¬ 
to de cada paso excede de una cota positiva e. 

• La büsqueda primero en profundidad selecciona para la expansion el nodo no 
expandido mas profundo en el ârbol de büsqueda. No es ni completo, ni ôptimo, 
y tiene la complejidad en tiempo de 0{b m ) y la complejidad en espacio de 0{bm), 
donde m es la profundidad mâxima de cualquier camino en el espacio de estados. 

• La büsqueda de profundidad limitada impone un limite de profundidad fijo a 
una büsqueda primero en profundidad. 

• La büsqueda de profundidad iterativa llama a la büsqueda de profundidad li¬ 
mitada aumentando este limite hasta que se encuentre un objetivo. Es completo, 
ôptimo para costos unidad, y tiene la complejidad en tiempo de 0{b d ) y la com¬ 
plejidad en espacio de 0{bd). 

• La büsqueda bidireccional puede reducir enormemente la complejidad en tiem¬ 
po, pero no es siempre aplicable y puede requérir demasiado espacio. 

• Cuando el espacio de estados es un grafo mas que un ârbol, puede valer la pena 
comprobar si hay estados repetidos en el ârbol de büsqueda. El algoritmo de Büs- 
queda-Grafos élimina todos los estados duplicados. 

• Cuando el ambiente es parcialmente observable, el agente puede aplicar algoritmos 
de büsqueda en el espacio de estados de creencia, o los conjuntos de estados po- 
sibles en los cuales el agente podrfa estar. En algunos casos, se puede construir una 
sencilla secuencia soluciôn; en otros casos, el agente necesita de un plan de con- 
tingencia para manejar las circunstancias desconocidas que puedan surgir - . 



Notas bibliogrâficas e histôricas 

Casi todos los problemas de büsqueda en espacio de estados analizados en este capitu- 
lo tienen una larga historia en la literatura y son menos triviales de lo que parecian. El 
problema de los misioneros y canibales, utilizado en el ejercicio 3.9, fue analizado con 
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detalle por Amarel (1968). Antes fue considerado en IA por Simon y Newel (1961), y 
en Investigaciôn Operativa por Bellman y Dreyfus (1962). Estudios como estos y el tra- 
bajo de Newell y Simon sobre el Légico Teorico (1957) y GPS (1961) provocaron el 
establecimiento de los algoritmos de büsqueda como las armas principales de los in- 
vestigadores de IA en 1960 y el establecimiento de la resoluciôn de problemas como la 
tarea principal de la IA. Desafortunadamente, muy pocos trabajos se han hecho para 
automatizar los pasos para la formulacion de los problemas. Un tratamiento mas reciente 
de la representacién y abstraccién del problema, incluyendo programas de IA que los 
llevan a cabo (en parte), esta descrito en Knoblock (1990). 

El 8-puzle es el primo mas pequeno del 15-puzle, que fue inventado por el famoso 
americano disenador de juegos Sam Loyd (1959) en la década de 1870. El 15-puzle râ- 
pidamente alcanzé una inmensa popularidad en Estados Unidos, comparable con la mas 
reciente causada por el Cubo de Rubik. También râpidamente atrajo la atencion de ma- 
temâticos (Johnson y Story, 1879; Tait, 1880). Los editores de la Revista Americana de 
Matemâticas indicaron que «durante las ültimas semanas el 15-puzle ha ido creciendo 
en interés ante el püblico americano, y puede decirse con seguridad haber captado la aten- 
ciôn de nueve de cada diez personas, de todas las edades y condiciones de la comuni- 
dad. Pero esto no ha inducido a los editores a incluir articulos sobre tal tema en la Re¬ 
vista Americana de Matemâticas, pero para el hecho que...» (sigue un resumen de 
interés matemâtico del 15-puzle). Un anâlisis exhaustivo del 8-puzle fue realizado por 
Schofield (1967) con la ayuda de un computador. Ratner y Warmuth (1986) mostraron 
que la version general n X n del 15-puzle pertenece a la clase de problemas NP-com- 
pletos. 

El problema de las 8-reinas fue publicado de manera anénima en la revista alema- 
na de ajedrez Schach en 1848; mas tarde fue atribuido a Max Bezzel. Fue republicado 
en 1850 y en aquel tiempo llamo la atencion del matemâtico eminente Cari Friedrich 
Gauss, que intenté enumerar todas las soluciones posibles, pero encontre solo 72. Nauck 
publico mas tarde en 1850 las 92 soluciones. Netto (1901) generalizô el problema a n 
reinas, y Abramson y Yung (1989) encontraron un algoritmo de orden 0{n). 

Cada uno de los problemas de büsqueda del mundo real, catalogados en el capitulo, 
han sido el tema de mucho esfuerzo de investigaciôn. Los métodos para seleccionar vue- 
los optimos de llneas aéreas siguen estando mayoritariamente patentados, pero Cari de 
Marcken (personal de comunicaciones) ha demostrado que las restricciones y el precio 
de los billetes de las llneas aéreas lo convierten en algo tan enrevesado que el problema 
de seleccionar un vuelo optimo es formalmente indecidible. El problema del viajante de 
comercio es un problema combinatorio estândar en informâtica teôrica (Lawler, 1985; 
Lawler et al., 1992). Karp (1972) demostré que el PVC es NP-duro, pero se desarrolla- 
ron métodos aproximados heurlsticos efectivos (Lin y Kernighan, 1973). Arora (1998) 
inventé un esquema aproximado polinomial compléta para los PVC Euclldeos. Shahookar 
y Mazumder (1991) inspeccionaron los métodos para la distribuciôn VLSI, y muchos tra¬ 
bajos de optimizaciôn de distribuciones aparecen en las revistas de VLSI. La navegaciôn 
robôtica y problemas de ensamblaje se discuten en el Capitulo 25. 

Los algoritmos de büsqueda no informada para resolver un problema son un tema 
central de la informâtica clâsica (Horowitz y Sahni, 1978) y de la investigaciôn opera¬ 
tiva (Dreyfus, 1969); Deo y Pang (1984) y Gallo y Pallottino (1988) dan revisiones mâs 
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recientes. La büsqueda primera en anchura fue formulada por Moore (1959) para resolver 
laberintos. El método de programaciôn dinâmica (Bellman y Dreyfus, 1962), que sis- 
temâticamente registra soluciones para todos los sub-problemas de longitudes crecien- 
tes, puede verse como una forma de büsqueda primera en anchura sobre grafos. El 
algoritmo de camino mas corto entre dos puntos de Dijkstra (1959) es el origen de büs¬ 
queda de coste uniforme. 

Una version de profundidad iterativa, disenada para hacer eficiente el uso del reloj en 
el ajedrez, fue utilizada por Slate y Atkin (1977) en el programa de juego Ajedrez 4.5, 
pero la aplicaciôn a la büsqueda del camino mas corto en grafos se debe a Korf (1985a). 
La büsqueda bidireccional, que fue presentada por Pohl (1969,1971), también puede ser 
muy eficaz en algunos casos. 

Ambientes parcialmente observables y no deterministas no han sido estudiados en 
gran profundidad dentro de la resoluciôn de problemas. Algunas cuestiones de eficacia 
en la büsqueda en estados de creencia han sido investigadas por Genesereth y Nourbakhsh 
(1993). Koening y Simmons (1998) estudiô la navegaciôn del robot desde una posiciôn 
desconocida inicial, y Erdmann y Mason (1988) estudiô el problema de la manipulaciôn 
robôtica sin sensores, utilizando una forma continua de büsqueda en estados de creen¬ 
cia. La büsqueda de contingencia ha sido estudiada dentro del subcampo de la plani- 
ficaciôn (véase el Capltulo 12). Principalmente, planificar y actuar con informaciôn 
incierta se ha manejado utilizando las herramientas de probabilidad y la teoria de deci¬ 
sion (véase el Capltulo 17). 

Los libres de texto de Nilsson (1971,1980) son buenas fuentes bibliogrâficas genera¬ 
les sobre algoritmos clâsicos de büsqueda. Una révision comprensiva y mas actualiza- 
da puede encontrarse en Korf (1988). Los artlculos sobre nuevos algoritmos de büsqueda 
(que, notablemente, se siguen descubriendo) aparecen en revistas como Artificial Inte¬ 
lligence. 



EJERCICIOS 

3.1 Defina con sus propias palabras los siguientes términos: estado, espacio de esta¬ 
dos, ârbol de büsqueda, nodo de büsqueda, objetivo, acciôn, funciôn sucesor, y factor 
de ramificaciôn. 


3.2 Explique por qué la formulaciôn del problema debe seguir a la formulaciôn del ob¬ 
jetivo. 

3.3 Supongamos que Acciones-Legales(s) dénota el conjunto de acciones que son le¬ 
gales en el estado s, y Resi;lïado(û,.s) dénota el estado que résulta de la realizaciôn de 
una acciôn legal a a un estado s. Defina Funciôn-Sucesor en términos Acciones-Le- 
gales y Resultado, y viceversa. 

3.4 Demuestre que los estados del 8-puzle estân divididos en dos conjuntos disjuntos, 
taies que ningün estado en un conjunto puede transformarse en un estado del otro con¬ 
junto por medio de un nümero de movimientos. ( Consejo: véase Berlekamp et al. 
(1982)). Invente un procedimiento que nos diga en qué clase esta un estado dado, y ex¬ 
plique por qué esto es bueno cuando generamos estados aleatorios. 





RESOLVER PROBLEMAS MEDIANTE BÛSQUEDA 101 


3.5 Consideremos el problema de las 8-reinas usando la formulacion «eficiente» in¬ 
crémental de la pagina 75. Explique por qué el tamano del espacio de estados es al 
menos v/nT y estime el valor mas grande para n para el cual es factible la exploraciôn 
exhaustiva. ( Consejo : saque una cota inferior para el factor de ramificacion conside- 
rando el numéro mâximo de cuadrados que una reina puede atacar en cualquier co- 
lumna.) 

3.6 ^Conduce siempre un espacio de estados finito a un ârbol de büsqueda finito? 
/Como un espacio de estados finito es un ârbol? /Puede ser mas preciso sobre qué ti- 
pos de espacios de estados siempre conducen a ârboles de büsqueda finito? (Adaptado 
de Bender, 1996.) 

3.7 Defina el estado inicial, test objetivo, funcion sucesor, y funcion costo para cada 
uno de los siguientes casos. Escoja una formulacion que sea suficientemente précisa para 
ser implementada. 

a) Coloree un mapa piano utilizando solo cuatro colores, de tal modo que dos re- 
giones adyacentes no tengan el mismo color. 

b) Un mono de très pies de alto esta en una habitaciôn en donde algunos plâta- 
nos estân suspendidos del techo de ocho pies de alto. Le gustaria conseguir los 
plâtanos. La habitaciôn contiene dos cajas apilables, môviles y escalables de 
très pies de alto. 

c ) Tiene un programa que da como salida el mensaje «registre de entrada ilegal» 
cuando introducimos un cierto archivo de registres de entrada. Sabe que el tra- 
tamiento de cada registre es independiente de otros registres. Quiere descubrir 
que es ilegal. 

d) Tiene très jarres, con capacidades 12 galones, ocho galones, y très galones, y 
un grifo de agua. Usted puede llenar los jarres o vaciarlos de uno a otro o en el 
suelo. Tiene que obtener exactamente un galon. 

3.8 Considéré un espacio de estados donde el estado comienzo es el nümero 1 y la fun- 
ciôn sucesor para el estado n devuelve 2 estados, los nümeros 2 n y 2 n + 1. 

a) Dibuje el trozo del espacio de estados para los estados del 1 al 15. 

b) Supongamos que el estado objetivo es el 11. Enumere el orden en el que serân 
visitados los nodos por la büsqueda primera en anchura, büsqueda primero en 
profundidad con limite très, y la büsqueda de profundidad iterativa. 

c) /Sera apropiada la büsqueda bidireccional para este problema? Si es asi, des- 
criba con detalle cômo trabajaria. 

d ) /Que es el factor de ramificacion en cada direcciôn de la büsqueda bidireccio¬ 
nal? 

e) /La respuesta (c) sugiere una nueva formulacion del problema que permitiria 
resolver el problema de salir del estado 1 para conseguir un estado objetivo dado, 
con casi ninguna büsqueda? 

3.9 El problema de los misioneros y canibales en general se forma como sigue. très 
misioneros y très canibales estân en un lado de un rio, con un barco que puede sostener 
a una o dos personas. Encuentre un modo de conseguir que todos estén en el otro lado, 
sin dejar alguna vez a un grupo de misioneros en un lugar excedido en nümero por los 
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canfbales. Este problema es famoso en IA porque fue el tema del primer trabajo que apro- 
ximo una formulaciôn de problema de un punto de vista analftico (Amarel, 1968). 

a) Formule el problema de forma précisa, haciendo solo las distinciones necesa- 
rias para asegurar una solucion valida. Dibujar un diagrama del espacio de es- 
tados completo. 

b) Implemente y resuelva el problema de manera optima utilizando un algoritmo 
apropiado de büsqueda. / ; Es una buena idea comprobar los estados repetidos? 

c ) / ; Por qué créé que la gente utiliza mucho tiempo para resolver este puzle, dado 
que el espacio de estados es tan simple? 

3.10 Implemente dos versiones de la funcion sucesor para el 8-puzle: uno que genere 
todos los sucesores a la vez copiando y editando la estructura de datos del 8-puzle, y otro 
que genere un nuevo sucesor cada vez, llamando y modificando el estado padre direc- 
tamente (haciendo las modificaciones necesarias). Escriba versiones de la büsqueda 
primero en profundidad con profundidad iterativa que use estas funciones y compare sus 
rendimientos. 

3.11 En la pagina 89, mencionamos la büsqueda de longitud iterativa, una büsque¬ 
da anâloga a la de costo uniforme iterativa. La idea es usar incrementos de los limites 
en el costo del camino. Si se généra un nodo cuyo costo del camino excede el limite ac- 
tual, se descarta inmediatamente. Para cada nueva iteracion, el limite se pone al coste 
mas bajo del camino de cualquier nodo descartado en la iteracion anterior. 

a) Muestre que este algoritmo es ôptimo para costos de camino generales. 

b) Considéré un ârbol uniforme con factor de ramificacion b, profundidad de so¬ 
lucion d, y costos unidad. ^Cuântas iteraciones requerirâ la longitud iterativa? 

c ) Ahora considéré los costos en el rango continuo [0,1] con un coste minimo po- 
sitivo e. / Cuantas iteraciones requieren en el peor caso? 

d) Implemente el algoritmo y apliquelo a los casos de los problemas del 8-puzle 
y del viajante de comercio. Compare el funcionamiento del algoritmo con la büs¬ 
queda de costo uniforme, y comente sus resultados. 

3.12 Demuestre que la büsqueda de costo uniforme y la büsqueda primero en anchura 
con costos constantes son optimas cuando se utiliza con el algoritmo de BÜSQUEDA-Gra- 
fos. Muestre un espacio de estados con costos constantes en el cual la BÜSQUEDA- 
Grafos, utilizando profundidad iterativa, encuentre una solucion suboptima. 

3.13 Describa un espacio de estados en el cual la büsqueda de profundidad iterativa 
funcione mucho peor que la büsqueda primero en profundidad (por ejemplo, 0(/r) con¬ 
tra 0(n)). 

3.14 Escriba un programa que tome como entrada dos URLs de paginas Web y en¬ 
cuentre un camino de links de una a la otra. / ; Cual es una estrategia apropiada de büs¬ 
queda? / ; La büsqueda bidireccional es una idea buena? <' ; Podria usarse un motor de 
büsqueda para implementar una funcion predecesor? 

3.15 Considéré el problema de encontrar el camino mas corto entre dos puntos sobre 
un piano que tiene obstâculos poligonales convexos como los que se muestran en la Fi¬ 
gura 3.22. Esto es una idealizacion del problema que tiene un robot para navegar en un 
entorno muy concurrido. 
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a) Suponga que el espacio de estados consiste en todas las posiciones (x, y) en el 
piano. ^Cuântos estados hay? / Cuântos caminos hay al objetivo? 

b) Explique brevemente por qué el camino mas corto desde un vértice de un poli- 
gono a cualquier otro debe consistir en segmentos en linea recta que unen al- 
gunos vértices de los poligonos. Defina un espacio de estados bueno. /Como 
de grande es este espacio de estados? 

c ) Defina las funciones necesarias para implementar el problema de büsqueda, in- 
cluyendo una funciôn sucesor que toma un vértice como entrada y devuelve el 
conjunto de vértices que pueden alcanzarse en linea recta desde el vértice dado. 
(No olvide los vecinos sobre el mismo poligono.) Utilice la distancia en linea 
recta para la funciôn heuristica. 

d) Aplique uno o varios de los algoritmos de este capitulo para resolver un con¬ 
junto de problemas en el dominio, y comente su funcionamiento. 

3.16 Podemos girar el problema de la navegaciôn del Ejercicio 3.15 en un entorno como 
el siguiente: 

• La percepciôn sera una lista de posiciones, relativas al agente, de vértices visibles. 
jLa percepciôn no incluye la posiciôn del robot! El robot debe aprender su propia 
position en el mapa; por ahora, puede suponer que cada posiciôn tiene una «vis- 
ta» diferente. 

• Cada action sera un vector describiendo un camino en linea recta a seguir. Si el 
camino esta libre, la action tiene éxito; en otro caso, el robot se para en el punto 
donde el camino cmza un obstâculo. Si el agente devuelve un vector de movimiento 
cero y esta en el objetivo (que esta fijado y conocido), entonces el entorno debe- 
ria colocar al agente en una posiciôn aleatoria (no dentro de un obstâculo). 

• La medida de rendimiento carga al agente, un punto por cada unidad de distancia 
atravesada y concédé 1.000 puntos cada vez que se alcance el objetivo. 

a) Implemente este entorno y un agente de résolution de problemas. El agente ten¬ 
dra que formular un nuevo problema después de la colocation en otro lugar, que 
implicarâ el descubrimiento de su posiciôn actual. 
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b) Documente el funcionamiento de su agente (teniendo que generar su agente el 
comentario conveniente de como se mueve a su alrededor) y el informe de su 
funcionamiento después de mas de 100 episodios. 

c) Modifique el entorno de modo que el 30 por ciento de veces el agente termi¬ 
ne en un destino no planeado (escogido al azar de otros vértices visibles, o que 
no haya ningün movimiento). Esto es un modelo ordinario de los errores de 
movimiento de un robot real. Modifique al agente de modo que cuando se des- 
cubra tal error, averigüe donde esta y luego construya un plan para regresar don- 
de estaba y resumir el viejo plan. jRecuerde que a veces recuperarse hacia donde 
estaba también podria fallar! Muestre un ejemplo satisfactorio del agente de 
modo que después de dos errores de movimientos sucesivos, todavfa alcance 
el objetivo. 

d) Ahora intente dos esquemas de recuperaciôn diferentes después de un error: (1) 
dirfjase al vértice mas cercano sobre la ruta original; y (2) plantée una nueva ruta 
al objetivo desde la nueva posiciôn. Compare el funcionamiento de estos très 
esquemas de recuperaciôn. /La inclusion de costos de la büsqueda afecta la com- 
paraciôn? 

e ) Ahora suponga que hay posiciones de las cuales la vista es idéntica (por ejem¬ 
plo, suponga que el mundo es una rejilla con obstâculos cuadrados). /Qué tipo 
de problema afronta ahora el agente? / A qué se parecen las soluciones? 

3.17 En la pagina 71, dijimos que no considerariamos problemas con caminos de cos¬ 
tos negativos. En este ejercicio, lo exploramos con mas profundidad. 

a) Suponga que las acciones pueden tener costos negativos arbitrariamente gran¬ 
des; explique por qué esta posibilidad forzaria a cualquier algoritmo ôptimo a 
explorar entero el espacio de estados. 

b) /Ayuda si insistimos que los costos puedan ser mayores o iguales a alguna cons¬ 
tante negativa cl Considéré tanto ârboles como grafos. 

c) Suponga que hay un conjunto de operadores que forman un ciclo, de modo que 
la ejecuciôn del conjunto en algün orden no cause ningün cambio neto al esta- 
do. Si todos estos operadores tienen el coste negativo, /qué implica sobre el com- 
portamiento ôptimo para un agente en tal entorno? 

d) Fâcilmente pueden imaginarse operadores con alto coste negativo, incluso so¬ 
bre dominios como la büsqueda de rutas. Por ejemplo, algunos caminos podrran 
tener un paisaje hermoso cuanto mas lejano esté y pese mas que los gastos 
normales en términos de tiempo y combustible. Explique, en términos exactos, 
dentro del contexto del espacio de estados de büsqueda, por qué la gente no con- 
duce sobre ciclos pintorescos indefinidamente, y explique como définir el es¬ 
pacio de estados y operadores para la büsqueda de rutas de modo que agentes 
artificiales también puedan evitar la formaciôn de ciclos. 

e) /Puede usted pensar en un dominio real en el cual los costos son la causa de la 
formaciôn de ciclos? 

3.18 Considéré el mundo de la aspiradora de dos posiciones sin sensores conforme a 
la ley de Murphy. Dibuje el espacio de estados de creencia accesible desde el estado de 
creencia inicial {1,2, 3,4, 5, 6, 7, 8 ), y explique por qué el problema es irresoluble. Mues- 
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tre también que si el mundo es totalmente observable, enfonces hay una secuencia so- 
lucion para cada estado inicial posible. 

3.19 Considéré el problema del mundo de la aspiradora definido en la Figura 2.2 

a) / Cuâl de los algoritmos definidos en este capitulo parece apropiado para este 
problema? ^Deberia el algoritmo comprobar los estados repetidos? 

b) Aplique el algoritmo escogido para obtener una secuencia de acciones optima 
para un mundo de 3 X 3 cuyo estado inicial tiene la suciedad en los très cua- 
drados superiores y el agente esta en el centra. 

c ) Construya un agente de büsqueda para el mundo de la aspiradora, y évalué su 
rendimiento en un conjunto de 3 X 3 con probabilidad de 0,2 de suciedad en 
cada cuadrado. 

d) Compare su mejor agente de büsqueda con un agente reactivo sencillo aleato- 
rio que aspira si hay suciedad y en otro caso se mueve aleatoriamente. 

e ) Considéré lo que sucederia si el mundo se ampliase a n X n. ^Como se mo¬ 
difie aria el rendimiento del agente de büsqueda y del agente reactivo varian- 
do el ni 




Büsqueda informada y 
exploraciôn 




En donde veremos cômo la informaciôn sobre el espacio de estados puede impedir 
a los algoritmos cometer un error en la oscuridad. 


El Capftulo 3 mostrô que las estrategias de büsqueda no informadas pueden encontrar 
soluciones en problemas generando sistemâticamente nuevos estados y probândolos 
con el objetivo. Lamentablemente, estas estrategias son increiblemente ineficientes en 
la mayorfa de casos. Este capitulo muestra cômo una estrategia de büsqueda informada 
(la que utiliza el conocimiento especifico del problema) puede encontrar soluciones de 
una manera mas eficiente. La Secciôn 4.1 describe las versiones informadas de los al¬ 
goritmos del Capitulo 3, y la Secciôn 4.2 explica cômo se puede obtener la informaciôn 
especifica necesaria del problema. Las Secciones 4.3 y 4.4 cubren los algoritmos que 
realizan la büsqueda puramente local en el espacio de estados, evaluando y modificando 
uno o varios estados mas que explorando sistemâticamente los caminos desde un esta- 
do inicial. Estos algoritmos son adecuados para problemas en los cuales el coste del ca- 
mino es irrelevante y todo lo que importa es el estado soluciôn en si mismo. La familia 
de algoritmos de büsqueda locales incluye métodos inspirados por la fisica estadistica 
(temple simulado) y la biologia evolutiva (algoritmos genéticos). Finalmente, la Sec¬ 
ciôn 4.5 investiga la büsqueda en linea, en la cual el agente se enfrenta con un espacio 
de estados que es completamente desconocido. 


4.1 Estrategias de büsqueda informada (heuristicas) 


büsqueda Esta secciôn muestra cômo una estrategia de büsqueda informada (la que utiliza el 

informada conocimiento especifico del problema mas alla de la definiciôn del problema en si mis¬ 

mo) puede encontrar soluciones de una manera mas eficiente que una estrategia no in¬ 
formada. 
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BÜSQUEDA PRIMERO 
EL MEJOR 


FUNCIÔN DE 
EVALUACIÔN 


FUNCION HEURiSTICA 


BÜSQUEDA VORAZ 
PRIMERO EL MEJOR 


DISTANCIA EN LINEA 
RECTA 


A la aproximaciôn general que consideraremos se le llamarâ büsqueda primero el 
mejor. La büsqueda primero el mejor es un caso particular del algoritmo general de Büs- 
queda-Ârboles o de Büsqueda-Grafos en el cual se selecciona un nodo para la ex¬ 
pansion basada en una funciôn de evaluacion, /(n). Tradicionalmente, se selecciona para 
la expansion el nodo con la evaluacion mas baja, porque la evaluacion mide la distan¬ 
cia al objetivo. La büsqueda primero el mejor puede implementarse dentro de nuestro 
marco general de büsqueda con una cola con prioridad, una estmctura de datos que man- 
tendrâ la frontera en orden ascendente de/-valores. 

El nombre de «büsqueda primero el mejor» es venerable pero inexacto. A fin de 
cuentas, si nosotros realmente pudiéramos expandir primero el mejor nodo, esto no sé¬ 
ria una büsqueda en absoluto; séria una marcha directa al objetivo. Todo lo que pode- 
mos hacer es escoger el nodo que parece ser el mejor segün la funciôn de evaluacion. 
Si la funciôn de evaluacion es exacta, entonces de verdad séria el mejor nodo; en reali- 
dad, la funciôn de evaluacion no sera asi, y puede dirigir la büsqueda por mal camino. 
No obstante, nos quedaremos con el nombre «büsqueda primero el mejor», porque 
«büsqueda aparentemente primero el mejor» es un poco incômodo. 

Hay una familia entera de algoritmos de Büsqueda-Primero-Mejor con funciones 1 
de evaluacion diferentes. Una componente clave de estos algoritmos es una funciôn heu- 
ristica 2 , denotada h(n)\ 

h(n) = coste estimado del camino mas barato desde el nodo n a un nodo objetivo. 

Por ejemplo, en Rumania, podrfamos estimar el coste del camino mas barato desde Arad 
a Bucarest con la distancia en linea recta desde Arad a Bucarest. 

Las funciones heuristicas son la forma mas comün de transmitir el conocimiento 
adicional del problema al algoritmo de büsqueda. Estudiaremos heuristicas con mas pro- 
fundidad en la Secciôn 4.2. Por ahora, las consideraremos funciones arbitrarias espe- 
cificas del problema, con una restricciôn: si n es un nodo objetivo, entonces h(n) = 0. 
El resto de esta secciôn trata dos modos de usar la informaciôn heuristica para dirigir 
la büsqueda. 

Büsqueda voraz primero el mejor 

La büsqueda voraz primero el mejor 3 trata de expandir el nodo mas cercano al obje¬ 
tivo, alegando que probablemente conduzca râpidamente a una soluciôn. Asi, evalüa los 
nodos utilizando solamente la funciôn heuristica: f{ri) = h{ri). 

Veamos cômo trabaja para los problemas de encontrar una ru ta en Rumama utilizando 
la heuristica distancia en linea recta, que llamaremos h DLR . Si el objetivo es Bucarest, 
tendremos que conocer las distancias en linea recta a Bucarest, que se muestran en la 
Figura 4.1. Por ejemplo, h DLR (En(Arad)) = 366. Notemos que los valores de h DLR no pue- 
den calcularse de la descripciôn de problema en si mismo. Ademâs, debemos tener una 


1 El Ejercicio 4.3 le pide demostrar que esta familia incluye varios algoritmos familiares no informados. 

2 Una funciôn heuristica h(ri) toma un nodo como entrada, pero dépende solo del estado en ese nodo. 

3 Nuestra primera ediciôn la llamô büsqueda avara (voraz); otros autores la han llamado büsqueda pri¬ 
mero el mejor. Nuestro uso mas general del término se sigue de Pearl ( 1984). 
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cierta cantidad de experiencia para saber que h DLR esta correlacionada con las distancias 
reales del camino y es, por lo tanto, una heuristica ütil. 


Arad 

366 

Mehadia 

241 

Bucarest 

0 

Neamt 

234 

Craiova 

160 

Oradea 

380 

Dobreta 

242 

Pitesti 

100 

Eforie 

161 

Rimnicu Vilcea 

193 

Fagaras 

176 

Sibiu 

253 

Giurgiu 

77 

Timisoara 

329 

Hirsova 

151 

Urziceni 

80 

Iasi 

226 

Vaslui 

199 

Lugoj 

244 

Zerind 

374 


Figura 4.1 Valores de h DLR . Distancias en lfnea recta a Bucarest. 


La Figura 4.2 muestra el progreso de una büsqueda primero el mejor avara con h DLR para 
encontrar un camino desde Arad a Bucarest. El primer nodo a expandir desde Arad sera 
Sibiu, porque esta mas cerca de Bucarest que Zerind o que Timisoara. El siguiente nodo 
a expandir sera Fagaras, porque es la mas cercana. Fagaras en su turno généra Bucarest, 
que es el objetivo. Para este problema particular, la büsqueda primero el mejor avara 
usando h DLR encuentra una soluciôn sin expandir un nodo que no esté sobre el camino 
solucion; de ahi, que su coste de büsqueda es minimo. Sin embargo, no es optimo: el 
camino via Sibiu y Fagaras a Bucarest es 32 kilométras mas largo que el camino por 
Rimnicu Vilcea y Pitesti. Esto muestra por qué se llama algoritmo «avaro» (en cada paso 
trata de ponerse tan cerca del objetivo como pueda). 

La mmimizacion de h(n) es susceptible de ventajas falsas. Considéré el problema 
de ir de Iasi a Fagaras. La heuristica sugiere que Neamt sea expandido primero, porque 
es la mas cercana a Fagaras, pero esto es un callejon sin salida. La solucion es ir pri¬ 
mero a Vaslui (un paso que en realidad esta mas lejano del objetivo segün la heuristi¬ 
ca) y luego seguir a Urziceni, Bucarest y Fagaras. En este caso, enfonces, la heuristica 
provoca nodos innecesarios para expandir. Ademâs, si no somos cuidadosos en des- 
cubrir estados repetidos, la solucion nunca se encontrarâ, la büsqueda oscilarâ entre 
Neamt e Iasi. 

La büsqueda voraz primero el mejor se parece a la büsqueda primero en profundi- 
dad en el modo que prefiere seguir un camino hacia el objetivo, pero volverâ atrâs cuan- 
do llegue a un callejon sin salida. Sufre los mismos defectos que la büsqueda primero 
en profundidad, no es optima, y es incompleta (porque puede ir hacia abajo en un ca¬ 
mino infinito y nunca volver para intentar otras posibilidades). La complejidad en tiem- 
po y espacio, del caso peor, es 0(b m ), donde m es la profundidad mâxima del espacio de 
büsqueda. Con una buena funciôn, sin embargo, pueden reducir la complejidad consi- 
derablemente. La cantidad de la reduccion dépende del problema particular y de la ca- 
lidad de la heuristica. 
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Büsqueda A*: minimizar el costo estimado total 
de la soluciôn 


BÜSQUEDA A* 


A la forma mas ampliamente conocida de la büsqueda primero el mejor se le llama bus- 
queda A* (pronunciada «büsqueda A-estrella»). Evalüa los nodos combinando gin), el 
coste para alcanzar el nodo, y h(n), el coste de ir al nodo objetivo: 


fin) = g(n) + h(n) 


Ya que la gin) nos da el coste del camino desde el nodo inicio al nodo n, y la Ii(n) el cos¬ 
te estimado del camino mas barato desde n al objetivo, tenemos: 


fin) = coste mas barato estimado de la soluciôn a través de n. 
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HEURISTICA 

ADMISIBLE 



Asi, si tratamos de encontrar la soluciôn mas barata, es razonable intentar primero el nodo 
con el valor mas bajo de g(n) + //(/?). Résulta que esta estrategia es mas que razonable: 
con tal de que la funciôn heuristica h(n) satisfaga ciertas condiciones, la büsqueda A* 
es tanto compléta como ôptima. 

La optimalidad de A* es sencilla de analizar si se usa con la Büsqueda-Arboles. 
En este caso, A* es ôptima si h(n) es una heuristica admisible, es decir, con tal de que 
la h(n) nunca sobrestime el coste de alcanzar el objetivo. Las heurfsticas admisibles son 
por naturaleza optimistas, porque piensan que el coste de resolver el problema es me- 
nor que el que es en realidad. Ya que g(n) es el coste exacto para alcanzar n, tenemos 
como consecuencia inmediata que la/(«) nunca sobrestima el coste verdadero de una 
soluciôn a través de n. 

Un ejemplo obvio de una heuristica admisible es la distancia en linea recta h DLR que 
usamos para ir a Bucarest. La distancia en linea recta es admisible porque el camino mas 
corto entre dos puntos cualquiera es una linea recta, enfonces la linea recta no puede ser 
una sobrestimaciôn. En la Figura 4.3, mostramos el progreso de un ârbol de büsqueda 
A* para Bucarest. Los valores de g se calculan desde los costos de la Figura 3.2, y los 
valores de h DLR son los de la Figura 4.1. Notemos en particular que Bucarest aparece pri¬ 
mero sobre la frontera en el paso (e), pero no se selecciona para la expansion porque su 
coste de/(450) es mas alto que el de Pitesti (417). Otro modo de decir esto consiste en 
que podria haber una soluciôn por Pitesti cuyo coste es tan bajo como 417, entonces el 
algoritmo no se conformarâ con una soluciôn que cuesta 450. De este ejemplo, pode- 
mos extraer una demostraciôn general de que A*, utilizando la Büsqueda-Arboles, es 
ôptimo si la h(n) es admisible. Supongamos que aparece en la frontera un nodo objeti¬ 
vo subôptimo G 2 , y que el coste de la soluciôn ôptima es C*. Entonces, como G 2 es su- 
bôptimo y h(G 2 ) = 0 (cierto para cualquier nodo objetivo), sabemos que 

/(G 2 ) = g(G 2 ) + h(G 2 ) = g(G 2 ) > C* 

Ahora considéré un nodo n de la frontera que esté sobre un camino soluciôn ôptimo, 
por ejemplo, Pitesti en el ejemplo del pârrafo anterior. (Siempre debe de haber ese nodo 
si existe una soluciôn.) Si la h{n) no sobrestima el coste de completar el camino so¬ 
luciôn, entonces sabemos que 

fin) = g{n) + h(n) < C* 

Hemos demostrado que/(«) < C* <f(G 2 ), asi que G 2 no sera expandido y A* debe de- 
volver una soluciôn ôptima. 

Si utilizamos el algoritmo de Büsqueda-Grafos de la Figura 3.19 en vez de la Büs¬ 
queda-Arboles, entonces esta demostraciôn se estropea. Soluciones subôptimas pueden 
devolverse porque la Büsqueda-Grafos puede desechar el camino ôptimo en un estado 
repetido si éste no se généra primero (véase el Ejercicio 4.4). Hay dos modos de arreglar 
este problema. La primera soluciôn es extender la Büsqueda-Grafos de modo que des- 
eche el camino mas caro de dos caminos cualquiera encontrando al mismo nodo ( véase 
la discusiôn de la Secciôn 3.5). El câlculo complementario es complicado, pero realmente 
garantiza la optimalidad. La segunda soluciôn es asegurar que el camino ôptimo a cual¬ 
quier estado repetido es siempre el que primero seguimos (como en el caso de la büsqueda 
de costo uniforme). Esta propiedad se mantiene si imponemos una nueva condiciôn a h(n). 
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(a) Estado inicial 



366 = 0+366 







Figura 4.3 Etapas en una büsqueda A* para Bucarest. Etiquetamos lo nodos con/ = g + h. Los 
valores h son las distancias en linea recta a Bucarest tomadas de la Figura 4.1. 
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CONSISTERA 

M0N0T0NIA 


DESIGUALDAD 

TRIANGULAR 




CURVAS DE NIVEL 


concretamente condiciôn de consistencia (también llamada monotom'a). Una heurfstica 
h(n) es consistente si, para cada nodo n y cada sucesor //' de n generado por cualquier 
acciôn a, el coste estimado de alcanzar el objetivo desde n no es mayor que el coste de 
alcanzar n' mas el coste estimado de alcanzar el objetivo desde n': 

h(n) < c(n,a,n') + h(n') 

Esto es una forma de la desigualdad triangular general, que especifica que cada lado 
de un triângulo no puede ser mas largo que la suma de los otros dos lados. En nuestro 
caso, el triângulo esta formado por n, n', y el objetivo mas cercano a n. Es fâcil demos- 
trar (Ejercicio 4.7) que toda heurfstica consistente es también admisible. La consecuencia 
mas importante de la consistencia es la siguiente: A* utilizando la BÜSQUEDA-Grafos es 
ôptimo si la h(n ) es consistente. 

Aunque la consistencia sea una exigencia mas estricta que la admisibilidad, uno tie- 
ne que trabajar bastante para inventar heurîsticas que sean admisibles, pero no consis- 
tentes. Todas la heurîsticas admisibles de las que hablamos en este capitulo también son 
consistentes. Consideremos, por ejemplo, h DLR . Sabemos que la desigualdad triangular 
general se satisface cuando cada lado se mide por la distancia en linea recta, y que la 
distancia en linea recta entre n y n' no es mayor que c(n, a, n'). De ahi que, h DLR es una 
heurfstica consistente. 

Otra consecuencia importante de la consistencia es la siguiente: si h(n) es consistente, 
enfonces los valores de fin), a lo largo de cualquier camino, no disminuyen. La de- 
mostraciôn se sigue directamente de la definiciôn de consistencia. Supongamos que n' 
es un sucesor de n ; entonces gin') = g(n) + c(n, a, n') para alguna a, y tenemos 

fin') = g(n') + h(n') = g{n) + c(n,a,n') + h(n') > g(n) + h(n) = fin) 

Se sigue que la secuencia de nodos expandidos por A* utilizando la BÜSQUEDA-Grafos 
estân en orden no decreciente de fin). De ahi que, el primer nodo objetivo selecciona- 
do para la expansion debe ser una solucion ôptima, ya que todos los nodos posteriores 
serân al menos tan costosos. 

El hecho de que los f-costos no disminuyan a lo largo de cualquier camino signifi- 
ca que podemos dibujar curvas de nivel en el espacio de estados, como las curvas de 
nivel en un mapa topogrâfico. La Figura 4.4 muestra un ejemplo. Dentro de la curva de 
nivel etiquetada con 400, todos los nodos tienen la fin) menor o igual a 400, etcétera. 
Entonces, debido a que A* expande el nodo de frontera de/-coste mas bajo, podemos 
ver que A* busca hacia fuera desde el nodo inicial, anadiendo nodos en bandas con- 
céntricas de/-coste creciente. 

Con la büsqueda de coste uniforme (büsqueda A* utilizando h in) = 0), las bandas 
serân «circulares» alrededor del estado inicial. Con heurîsticas mâs précisas, las bandas 
se estirarân hacia el estado objetivo y se harân mâs concéntricas alrededor del camino ôp¬ 
timo. Si C* es el coste del camino de solucion ôptimo, entonces podemos decir lo siguiente: 

• A* expande todos los nodos con fin) < C*. 

• A* entonces podria expandir algunos nodos directamente sobre «la curva de ni¬ 
vel objetivo» (donde la fin) — C*) antes de seleccionar un nodo objetivo. 

Por intuiciôn, es obvio que la primera solucion encontrada debe ser ôptima, porque los 
nodos objetivos en todas las curvas de nivel siguientes tendrân el/-coste mâs alto, y asi 
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PO DA 


OPTIMAMENTE 

EFICIENTE 



Figura 4.4 Mapa de Rumanfa mostrando curvas de nivel en / = 380,/ = 400 y / = 420, con 
Arad como estado inicial. Los nodos dentro de cada curva de nivel tienen/-costos menores o igua- 
les al valor de la curva de nivel. 


el g-coste mas alto (porque todos los nodos de objetivo tienen h(n) = 0). Por intuiciôn, 
es también obvio que la büsqueda A* es compléta. Como anadimos las bandas de/cre- 
ciente, al final debemos alcanzar una banda donde/sea igual al coste del camino a un 
estado objetivo 4 . 

Note que A* no expande ningün nodo con f{n) > C* (por ejemplo, Timisoara no se 
expande en la Figura 4.3 aun cuando sea un hijo de la raiz). Decimos que el subârbol 
debajo de Timisoara esta podado; como h DLR es admisible, el algoritmo seguramente no 
harâ caso de este subârbol mientras todavia se garantiza la optimalidad. El concepto de 
poda (eliminaciôn de posibilidades a considerar sin necesidad de examinarlas) es im¬ 
portante para muchas areas de IA. 

Una observaciôn final es que entre los algoritmos ôptimos de este tipo (los algorit- 
mos que extienden los caminos de büsqueda desde la raiz) A* es ôptimamente eficiente 
para cualquier funciôn heuristica. Es decir, ningün otro algoritmo ôptimo garantiza ex- 
pandir menos nodos que A* (excepto posiblemente por los desempates entre los nodos 
con fin) = C*). Esto es porque cualquier algoritmo que no expanda todos los nodos con 
fin) < C* corre el riesgo de omitir la solucion ôptima. 

Nos satisface bastante la büsqueda A* ya que es compléta, ôptima, y ôptimamente 
eficiente entre todos los algoritmos. Lamentablemente, no significa que A* sea la res- 
puesta a todas nuestras necesidades de büsqueda. La dificultad es que, para la mayorfa 
de los problemas, el nümero de nodos dentro de la curva de nivel del objetivo en el es- 
pacio de büsqueda es todavia exponencial en la longitud de la solucion. Aunque la de- 
mostraciôn del resultado esta fuera del alcance de este libro, se ha mostrado que el 


4 La completitud requiere que haya solo un nümero finito de nodos con el coste menor o igual a C *, una 
condition que es cierta si todos los costos exceden algün nümero e finito y si b es finito. 
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BÜSQUEDA 
RECURSIVA DEL 
PRIMERO MEJOR 


crecimiento exponencial ocurrirâ a no ser que el error en la funciôn heuristica no crez- 
ca mas râpido que el logaritmo del coste de camino real. En notation matemâtica, la con¬ 
dition para el crecimiento subexponencial es 

\h(n) — h*(ri )| ^ 0(log h*(ri)) 

donde h* (ri) es el coste real de alcanzar el objetivo desde n. En la prâctica, para casi todas 
las heurfsticas, el error es al menos proporcional al coste del camino, y el crecimiento ex¬ 
ponencial que résulta alcanza la capacidad de cualquier computador. Por esta razon, es a 
menudo poco prâctico insistir en encontrar una solution optima. Uno puede usar las variantes 
de A* que encuentran râpidamente soluciones suboptimas, o uno a veces puede disenar heu- 
risticas que sean mas exactas, pero no estrictamente admisibles. En cualquier caso, el em- 
pleo de buenas heurfsticas proporciona énormes ahorros comparados con el empleo de una 
büsqueda no informada. En la Section 4.2, veremos el diseno de heurfsticas buenas. 

El tiempo computacional no es, sin embargo, la desventaja principal de A*. Como 
mantiene todos los nodos generados en memoria (como hacen todos los algoritmos de 
BÜSQUEDA-Grafos), A*, por lo general, se queda sin mue ho espacio antes de que se que- 
de sin tiempo. Por esta razon, A* no es prâctico para problemas grandes. Los algorit¬ 
mos recientemente desarrollados han vencido el problema de espacio sin sacrificar la 
optimalidad o la completitud, con un pequeno coste en el tiempo de ejecucion. Estos se 
discutirân a continuation. 

Büsqueda heuristica con memoria acotada 

La forma mas simple de reducir la exigencia de memoria para A* es adaptar la idea de 
profundizar iterativamente al contexto de büsqueda heuristica, resultando asi el algorit- 
mo A* de profundidad iterativa (A*PI). La diferencia principal entre A*PI y la profun- 
didad iterativa estândar es que el corte utilizado es el /-coste (g + h) mas que la 
profundidad; en cada itération, el valor del corte es el/-coste mas pequeno de cualquier 
nodo que excediô el corte de la itération anterior. A*PI es prâctico para muchos pro¬ 
blemas con costos unidad y évita el trabajo asociado con el mantenimiento de una cola 
ordenada de nodos. Lamentablemente, esto sufre de las mismas dificultades con costos 
de valores reales como hace la version iterativa de büsqueda de coste uniforme descri- 
ta en el Ejercicio 3.11. Esta section brevemente examina dos algoritmos mâs recientes 
con memoria acotada, llamados BRPM y A*M. 

La büsqueda recursiva del primero mejor (BRPM) es un algoritmo sencillo re- 
cursivo que intenta imitar la operation de la büsqueda primero el mejor estândar, pero 
utilizando solo un espacio lineal. En la Figura 4.5 se muestra el algoritmo. Su estructu- 
ra es similar a la büsqueda primero en profundidad recursiva, pero mâs que seguir in- 
definidamente hacia abajo el camino actual, mantiene la pista del /-valor del mejor 
camino alternativo disponible desde cualquier antepasado del nodo actual. Si el nodo ac¬ 
tual excede este limite, la recursividad vuelve atrâs al camino alternativo. Como la re- 
cursividad vuelve atrâs, la BRPM sustituye los /-valores de cada nodo a lo largo del 
camino con el mejor/-valor de su hijo. De este modo, la BRPM recuerda el/-valor de 
la mejor hoja en el subârbol olvidado y por lo tanto puede decidir si merece la pena ex- 
pandir el subârbol mâs tarde. La Figura 4.6 muestra como la BRPM alcanza Bucarest. 
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A*M 

A*MS 


funciôn BüsQUEDA-RECURSiVA-PRiMERO-MEJOR(profo/e»îfl) devuelve una solucion, o fallo 
BRPM (problema, Hacer-Nodo(Estado-Inicial[p/-oWc«7<7]),°°) 

funciôn BRPM(problema,nodo,f_lîmite) devuelve una solucion, o fallo y un nuevo limite 
/- costo 

si TEST-OBmTivo[probIema](estado) enfonces devolver nodo 
sucesores <— RxvkNE>\R(nodo,problema) 
si sucesores esta vaclo enfonces devolver fallo, °° 
para cada s en sucesores hacer 
/[s] <- max(gO) + h(s),f\nodo)) 
repetir 

mejor <— nodo con/-valor mas pequeno de sucesores 

si/ [mejor] >/_liïnite enfonces devolver fallo, / [/Me/o/ | 

alternativa <— nodo con el segundo/-valor mas pequeno entre los sucesores 

resultado,f [mejor] <— BRPM(problema,mejor,mm(j_Umite,alternativa )) 

si resultado A fallo enfonces devolver resultado 


Figura 4.5 Algoritmo para la bdsqueda primero el mejor recursiva. 


La BRPM es algo mas eficiente que A*PI, pero todavla sufre de la regeneraciôn ex- 
cesiva de nodos. En el ejemplo de la Figura 4.6, la BRPM sigue primero el camino via 
Rimnicu Vilcea, enfonces «cambia su opinion» e intenta Fagaras, y luego cambia su opi¬ 
nion hacia atrâs otra vez. Estos cambios de opinion ocurren porque cada vez que el me¬ 
jor camino actual se extiende, hay una buena posibilidad que aumente su/-valor (/; es 
por lo general menos optimista para nodos mas cercanos al objetivo). Cuando esto pasa, 
en particular en espacios de büsqueda grandes, el segundo mejor camino podrla con- 
vertirse en el mejor camino, entonces la büsqueda tiene que retroceder para seguirlo. Cada 
cambio de opinion corresponde a una iteraciôn de A*PI, y podrla requérir muchas nue- 
vas expansiones de nodos olvidados para volver a crear el mejor camino y ampliarlo en 
un nodo mas. 

Como A*, BRPM es un algoritmo ôptimo si la funciôn heuristica h(ri) es admisible. 
Su complejidad en espacio es 0{bd), pero su complejidad en tiempo es bastante diflcil 
de caracterizar: dépende de la exactitud de la funciôn heuristica y de como cambia a me- 
nudo el mejor camino mientras se expanden los nodos. Tanto A*PI como BRPM estân 
sujetos al aumento potencialmente exponencial de la complejidad asociada con la büs¬ 
queda en grafos (véase la Secciôn 3.5), porque no pueden comprobar para saber si hay 
estados repetidos con excepciôn de los que estân en el camino actual. Asl, pueden ex¬ 
plorer el mismo estado muchas veces. 

A*PI y BRPM sufren de utilizar muy poca memoria. Entre iteraciones, A*PI con¬ 
serva solo un nümero: el limite/-coste actual. BRPM conserva mas informaciôn en la 
memoria, pero usa solo O(bd) de memoria: incluso si hubiera mas memoria disponible, 
BRPM no tiene ningün modo de aprovecharse de ello. 

Parece sensible, por lo tanto, usar toda la memoria disponible. Dos algoritmos que 
hacen esto son A*M (A* con memoria acotada) y A*MS (A*M simplifieada). Descri- 
biremos A*MS, que es mas sencillo. A*MS avanza como A*, expandiendo la mejor hoja 
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Figura 4.6 Etapas en una büsqueda BRPM para la ruta mas corta a Bucarest. Se muestra el va- 
lor del/-limite para cada llamada recursiva sobre cada nodo actual. (a) Se sigue el camino via Rim- 
nicu Vilcea hasta que la rnejor hoja actual (Pitesti) tenga un valor que es peor que el mejor camino 
alternativo (Fagaras). (b) La recursividad se aplica y el mejor valor de las hojas del subârbol olvi- 
dado (417) se le devuelve hacia atrâs a Rimnicu Vilcea; entonces se expande Fagaras, révéla un me¬ 
jor valor de hoja de 450. (c) La recursividad se aplica y el mejor valor de las hojas del subârbol 
olvidado (450) se le devuelve hacia atrâs a Fagaras; entonces se expande Rimnicu Vilcea. Esta vez, 
debido a que el mejor camino alternativo (por Timisoara) cuesta por lo menos 447, la expansion 
sigue por Bucarest. 


hasta que la memoria esté llena. En este punto, no se puede anadir un nuevo nodo al ârbol 
de büsqueda sin retirar uno viejo. A*MS siempre retira el peor nodo hoja (el de/-valor 
mas alto). Como en la BRPM, A*MS entonces devuelve hacia atrâs, a su padre, el va¬ 
lor del nodo olvidado. De este modo, el antepasado de un subârbol olvidado sabe la ca- 










118 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


THRASHING 



ESPACIO DE ESTADOS 
METANIVEL 


ESPACIO DE ESTADOS 
A NIVEL DE OBJETO 


lidad del mejor camino en el subârbol. Con esta information, A*MS vuelve a generar 
el subârbol solo cuando todos los otros caminos parecen peores que el camino olvida- 
do. Otro modo de decir esto consiste en que, si todos los descendientes de un nodo n son 
olvidados, enfonces no sabremos por qué camino ir desde n, pero todavia tendremos una 
idea de cuânto vale la pena ir desde n a cualquier nodo. 

El algoritmo completo es demasiado complicado para reproducirse aqui 5 , pero hay 
un matiz digno de mencionar. Dijimos que A*MS expande la mejor hoja y suprime la 
peor hoja. {Y si todos los nodos hoja tienenel mismo/-valor? Enfonces el algoritmo po- 
drfa seleccionar el mismo nodo para eliminar y expandir. A*MS soluciona este proble- 
ma expandiendo la mejor hoja mas nueva y suprimiendo la peor hoja mâs vieja. Estos 
pueden ser el mismo nodo solo si hay una sola hoja; en ese caso, el ârbol actual de büs- 
queda debe ser un camino solo desde la raiz a la hoja llenando toda la memoria. Si la 
hoja no es un nodo objetivo, entonces, incluso si esta sobre un camino soluciôn ôptimo, 
esa soluciôn no es accesible con la memoria disponible. Por lo tanto, el nodo puede des- 
cartarse como si no tuviera ningün sucesor. 

A*MS es completo si hay alguna soluciôn alcanzable, es decir, si d, la profundidad 
del nodo objetivo mâs superficial, es menor que el tamano de memoria (expresada en 
nodos). Es ôptimo si cualquier soluciôn ôptima es alcanzable; de otra manera devuelve 
la mejor soluciôn alcanzable. En términos prâcticos, A*MS bien podria ser el mejor al¬ 
goritmo de uso general para encontrar soluciones ôptimas, en particular cuando el es- 
pacio de estados es un grafo, los costos no son uniformes, y la generaciôn de un nodo 
es costosa comparada con el gasto adicional de mantener las listas abiertas y cerradas. 

Sobre problemas muy dificiles, sin embargo, a menudo al A*MS se le fuerza a cam- 
biar hacia delante y hacia atrâs continuamente entre un conjunto de caminos soluciôn 
candidatos, y solo un pequeno subconjunto de ellos puede caber en memoria (esto se pa- 
rece al problema de thrashing en sistemas de paginaciôn de disco). Entonces el tiempo 
extra requerido para la regeneraciôn repetida de los mismos nodos significa que los pro¬ 
blemas que serfan prâcticamente resolubles por A*, considerando la memoria ilimita- 
da, se harfan intratables para A*MS. Es decir, las limitaciones de memoria pueden 
hacer a un problema intratable desde el punto de vista de tiempo de câlculo. Aunque 
no haya ninguna teoria para explicar la compensaciôn entre el tiempo y la memoria, pa- 
rece que esto es un problema ineludible. La ünica salida es suprimir la exigencia de op- 
timizaciôn. 

Aprender a buscar mejor 

Elemos presentado varias estrategias fijas (primero en anchura, primera el mejor avara, 
etcétera) disenadas por informâticos. ^Podria un agente aprender a buscar mejor? La res- 
puesta es si, y el método se apoya sobre un concepto importante llamado el espacio de 
estados metanivel. Cada estado en un espacio de estados metanivel captura el estado 
interno (computacional) de un programa que busca en un espacio de estados a nivel de 
objeto como Rumama. Por ejemplo, el estado interno del algoritmo A* consiste en el 


5 Un esbozo aparecio en la primera ediciôn de este libro. 
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ârbol actual de büsqueda. Cada acciôn en el espacio de estados metanivel es un paso de 
cômputo que cambia el estado interno; por ejemplo, cada paso de cômputo en A* ex- 
pande un nodo hoja y anade sus sucesores al ârbol. Asl, la Figura 4.3, la cual muestra 
una secuencia de ârboles de büsqueda mas y mas grandes, puede verse como la repre- 
sentaciôn de un camino en el espacio de estados metanivel donde cada estado sobre el 
camino es un ârbol de büsqueda a nivel de objeto. 

Ahora, el camino en la Figura 4.3 tiene cinco pasos, incluyendo un paso, la expan¬ 
sion de Fagaras, que no es especialmente provechoso. Para problemas mâs difïciles, ha- 
brâ muchos de estos errores, y un algoritmo de aprendizaje metanivel puede aprender 
de estas experiencias para evitar explorar subârboles no prometedores. Las técnicas usa- 
das para esta clase de aprendizaje estân descritas en el Capitulo 21. El objetivo del apren¬ 
dizaje es reducir al mmimo el coste total de resolver el problema, compensar el costo 
computacional y el coste del camino. 


4.2 Funciones heunsticas 


En esta seccion, veremos heunsticas para el 8-puzle, para que nos den informaciôn so¬ 
bre la naturaleza de las heunsticas en general. 

El 8-puzle fue uno de los primeros problemas de büsqueda heurfstica. Como se men- 
cionô en la Seccion 3.2, el objeto del puzle es deslizar las fichas horizontalmente o ver- 
ticalmente al espacio vacio hasta que la configuraciôn empareje con la configuraciôn 
objetivo (Figura 4.7). 



Figura 4.7 Un caso tfpico del 8-puzle. La soluciôn tiene 26 pasos. 


El coste medio de la soluciôn para los casos generados al azar del 8-puzle son aproxi- 
madamente 22 pasos. El factor de ramificaciôn es aproximadamente très. (Cuando la 
ficha vacia estâ en el medio, hay cuatro movimientos posibles; cuando estâ en una es- 
quina hay dos; y cuando estâ a lo largo de un borde hay très.) Esto significa que una 
büsqueda exhaustiva a profundidad 22 miraria sobre 3 22 ~ 3,1 X 10 10 estados. Mante- 
niendo la pista de los estados repetidos, podriamos reducirlo a un factor de aproxima¬ 
damente 170.000, porque hay solo 9!/2 = 181.440 estados distintos que son alcanzables. 
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DISTANCIA DE 
MANHATTAN 

(Véase el Ejercicio 3.4.) Esto es un numéro manejable, pero el numéro correspondien- 
te para el puzle-15 es aproximadamente 10 B , entonces lo siguiente es encontrar una bue- 
na funcion heurîstica. Si queremos encontrar las soluciones mas cortas utilizando A*, 
necesitamos una funcion heurîstica que nunca sobrestima el numéro de pasos al objeti- 
vo. Hay una larga historia de taies heuristicas para el 15-puzle; aqui estân dos candida- 
tas comünmente usadas: 

• h j = nümero de piezas mal colocadas. Para la Figura 4.7, las 8 piezas estân fuera 
de su posiciôn, asi que el estado inicial tiene /q = 8. /q es una heurîstica admisi- 
ble, porque esta claro que cualquier pieza que esta fuera de su lugar debe mover- 
se por lo menos una vez. 

• h 2 = suma de las distancias de las piezas a sus posiciones en el objetivo. Como 
las piezas no pueden moverse en diagonal, la distancia que contaremos sera la suma 
de las distancias horizontales y verticales. Esto se llama a veces la distancia en 
la ciudad o distancia de Manhattan. h 2 es también admisible, porque cualquier 
movimiento que se puede hacer es mover una pieza un paso mas cerca del objeti¬ 
vo. Las piezas 1 a 8 en el estado inicial nos dan una distancia de Manhattan de 

h 2 = 3 + 1 + 2 + 2 + 2 + 3 + 3 + 2=18 

Como era de esperar, ninguna sobrestima el coste solution verdadero, que es 26. 

FACTOR DE 

RAMIFICACIÔN EFICAZ 

El efecto de la précision heurîstica en el rendimiento 

Una manera de caracterizar la calidad de una heurîstica es el b* factor de ramificaciôn 
eficaz. Si el nümero total de nodos generados por A* para un problema particular es N, 
y la profundidad de la solucion es d, entonces b * es el factor de ramificaciôn que un âr- 
bol uniforme de profundidad d deberia tener para contener N + 1 nodos. Asi, 

N + 1 = 1 + b* + (b*) 2 + ... + ( b*) d 

Por ejemplo, si A* encuentra una solucion a profundidad cinco utilizando 52 nodos, en¬ 
tonces el factor de ramificaciôn eficaz es 1,92. El factor de ramificaciôn eficaz puede 
variar segün los ejemplos del problema, pero por lo general es constante para proble- 
mas suficientemente dificiles. Por lo tanto, las medidas experimentales de b* sobre un 
pequeno conjunto de problemas pueden proporcionar una buena guia para la utilidad to¬ 
tal de la heurîstica. Una heurîstica bien disenada tendria un valor de b* cerca de 1, per- 
mitirfa resolver problemas bastante grandes. 

Para probar las funciones heuristicas /q y h 2 , generamos 1.200 problemas aleatorios 
con soluciones de longitudes de 2 a 24 (100 para cada nümero par) y los resolvemos con 
la büsqueda de profundidad iterativa y con la büsqueda en ârbol A* usando tanto /q como 
h 2 . La Figura 4.8 nos da el nümero medio de nodos expandidos por cada estrategia y el 
factor de ramificaciôn eficaz. Los resultados sugieren que h 2 es mejor que /q y es mu- 
cho mejor que la utilizaciôn de la büsqueda de profundidad iterativa. Sobre nuestras so¬ 
luciones con longitud 14, A* con h 2 es 30.000 veces mas eficiente que la büsqueda no 
informada de profundidad iterativa. 

Uno podrfa preguntarse si h 2 es siempre mejor que h v La respuesta es si. Es fâcil 
ver de las definiciones de las dos heuristicas que, para cualquier nodo n, h 2 (n ) > //,(/;). 
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dominaciôn Asi decimos que h 2 domina a //,. La dominaciôn se traslada directamente a la eficien- 

cia: A* usando h 2 nunca expandirâ mas nodos que A* usando h 1 (excepto posiblemente 
para algunos nodos con/(/?) = C*). El argumento es simple. Recuerde la observacion 
de la pagina 113 de que cada nodo con f(n) < C* sera seguramente expandido. Esto es 
lo mismo que decir que cada nodo con h(n) < C* — g(n) sera seguramente expandido. 
Pero debido a que h 2 es al menos tan grande como /;, para todos los nodos, cada nodo 
que seguramente sera expandido por la büsqueda A* con h 2 sera seguramente también 
expandido con h v y h x podrfa también hacer que otros nodos fueran expandidos. De ahi 
que es siempre mejor usar una funciôn heuristica con valores mas altos, a condicion de 
que no sobrestime y que el tiempo computacional de la heuristica no sea demasiado 
grande. 



Costo de la büsqueda 

Factor de ramificacion eficaz 

d 

BPI 

A*( hj) 

A*( hj) 

BPI 

A*( hj) 

A*( hj) 

2 

10 

6 

6 

2,45 

1,79 

1,79 

4 

112 

13 

12 

2,87 

1,48 

1,45 

6 

680 

20 

18 

2,73 

1,34 

1,30 

8 

6384 

39 

25 

2,80 

1,33 

1,24 

10 

47127 

93 

39 

2,79 

1,38 

1,22 

12 

3644035 

227 

73 

2,78 

1,42 

1,24 

14 

— 

539 

113 

— 

1,44 

1,23 

16 

— 

1301 

211 

— 

1,45 

1,25 

18 

— 

3056 

363 

— 

1,46 

1,26 

20 

— 

7276 

676 

— 

1,47 

1,27 

22 

— 

18094 

1219 

— 

1,48 

1,28 

24 

— 

39135 

1641 

— 

1,48 

1,26 

Figura 4.8 Comparaeion de los costos de la büsqueda y factores de ramificaciôn eficaces para la 

Büsqueda-Profundidad-Iterativa y los algoritmos A* con h l y h 2 . 
ejemplos del puzle-8, para soluciones de varias longitudes. 

Los datos son la media de 100 


Inventar funciones heuristicas admisibles 


PROBLEMA RELAJADO 



Hemos visto que h x (piezas mas colocadas) y //, (distancia de Manhattan) son heuristi¬ 
cas bastante buenas para el 8-puzle y que h 2 es mejor. /Como ha podido surgir // 2 ? /Es 
posible para un computador inventar mecânicamente tal heuristica? 

h j, h 0 son estimaciones de la longitud del camino restante para el 8-puzle, pero tam¬ 
bién son longitudes de caminos absolutamente exactos para versiones simplificadas del 
puzle. Si se cambiaran las réglas del puzle de modo que una ficha pudiera moverse a to- 
das partes, en vez de solamente al cuadrado adyacente vacio, enfonces h l daria el nu¬ 
méro exacto de pasos en la solucion mas corta. Del mismo modo, si una ficha pudiera 
moverse a un cuadrado en cualquier direccion, hasta en un cuadrado ocupado, entonces 
A daria el numéro exacto de pasos en la solucion mas corta. A un problema con menos 
restricciones en las acciones se le llama problema relajado. El costo de una solucion 
ôptima en un problema relajado es una heuristica admisible para el problema original. 
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La heurfstica es admisible porque la solucion optima en el problema original es, por de- 
finicion, también una solucion en el problema relajado y por lo tanto debe ser al menos 
tan cara como la solucion optima en el problema relajado. Como la heurfstica obtenida 
es un costo exacto para el problema relajado, debe cumplir la desigualdad triangular y 
es por lo tanto consistente (véase la pagina 113). 

Si la definicion de un problema esta escrita en un lenguaje formai, es posible cons- 
truir problemas relajados automâticamente 6 . Por ejemplo, si las acciones del 8-puzle es- 
tân descritas como 

Una ficha puede moverse del cuadrado A al cuadrado B si 

A es horizontalmente o verticalmente adyacente a B y B es la vacfa 

podemos generar très problemas relajados quitando una o ambas condiciones: 

(a) Una ficha puede moverse del cuadrado A al cuadrado B si A es adyacente a B. 

(b) Una ficha puede moverse del cuadrado A al cuadrado B si B es el vacio. 

(c) Una ficha puede moverse del cuadrado A al cuadrado B. 

De (a), podemos obtener h 2 (distancia de Manhattan). El razonamiento es que h 2 séria 
el resultado apropiado si moviéramos cada ficha en direccion a su destino. La heuristi- 
ca obtenida de (b) se discute en el Ejercicio 4.9. De (c), podemos obtener h l (fichas mal 
colocadas), porque séria el resultado apropiado si las fichas pudieran moverse a su des¬ 
tino en un paso. Notemos que es cmcial que los problemas relajados generados por esta 
técnica puedan resolverse esencialmente sin büsqueda, porque las réglas relajadas per- 
miten que el problema sea descompuesto en ocho subproblemas independientes. Si el 
problema relajado es dificil de resolver, enfonces los valores de la correspondencia heu- 
ristica serân costosos de obtener 7 . 

Un programa llamado Absolver puede generar heuristicas automâticamente a par¬ 
tir de las definiciones del problema, usando el método del «problema relajado» y otras 
técnicas (Prieditis, 1993). Absolver generô una nueva heurfstica para el 8-puzle mejor 
que cualquier heurfstica y encontre el primer heurfstico ütil para el famoso puzle cubo 
de Rubik. 

Un problema con la generacion de nuevas funciones heuristicas es que a menudo se 
falla al conseguir una heurfstica «claramente mejor». Si tenemos disponible un conjun- 
to de heuristicas admisibles h v .. h m para un problema, y ninguna de ellas domina a las 
demâs, / t|ué deberfamos elegir? No tenemos por qué hacer una opcion. Podemos tener 
lo mejor de todas, definiendo 

h(n ) = max {h x (n), ...,h m (n)} 

Esta heurfstica compuesta usando cualquier funcion es mas exacta sobre el nodo en 
cuestiôn. Como las heuristicas componentes son admisibles, h es admisible; es tam- 


6 En los capftulos 8 y 11, describiremos lenguajes formales convenientes para esta tarea; con descripciones 
formales que puedan manipularse, puede automatizarse la construcciôn de problemas relajados. Por el mo- 
mento, usaremos el castellano. 

7 Note que una heurfstica perfecta puede obtenerse simplemente permitiendo a h ejecutar una büsqueda pri¬ 
ment en anchura «a escondidas». Asf, hay una compensacion entre exactitud y tiempo de câlculo para las 
funciones heuristicas. 
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bién fâcil demostrar que h es consistente. Ademâs, h domina a todas sus heurfsticas 
componentes. 

También se pueden obtener heurfsticas admisibles del coste de la soluciôn de un sub- 
problema de un problema dado. Por ejemplo, la Figura 4.9 muestra un subproblema del 
puzle-8 de la Figura 4.7. El subproblema implica la colocaciôn de las fichas 1, 2, 3, 4 
en sus posiciones correctas. Claramente, el coste de la soluciôn ôptima de este subpro¬ 
blema es una cota inferior sobre el coste del problema completo. Parece ser considera- 
blemente mas exacta que la distancia de Manhattan, en algunos casos. 

La idea que hay detrâs del modelo de bases de datos es almacenar estos costos exac¬ 
tes de las soluciones para cada posible subproblema (en nuestro ejemplo, cada confi- 
guraciôn posible de las cuatro fichas y el vaclo; note que las posiciones de las otras cuatro 
fichas son irrelevantes para los objetivos de resolver el subproblema, pero los movimientos 
de esas fichas cuentan realmente hacia el coste). Entonces, calculamos una heurîstica ad- 
misible h BD , para cada estado completo encontrado durante una büsqueda, simplemen- 
te mirando la configuraciôn del subproblema correspondiente en la base de datos. La base 
de datos se construye buscando hacia atrâs desde el estado objetivo y registrando el cos¬ 
te de cada nuevo modelo encontrado; el gasto de esta büsqueda se amortiza sobre los si- 
guientes problemas. 

La opciôn de 1-2-3-4 es bastante arbitraria; podrîamos construir también bases de 
datos para 5-6-7-8, y para 2-4-6-8, etcétera. Cada base de datos produce una heurfstica 
admisible, y esta heurfstica puede combinarse, como se explicô antes, tomando el valor 
mâximo. Una heurîstica combinada de esta clase es mucho mas exacta que la distancia 
de Manhattan; el nümero de nodos generados, resolviendo 15-puzles aleatorios, puede 
reducirse en un factor de 1.000. 

Uno podria preguntarse si las heurfsticas obtenidas de las bases de datos 1-2-3-4 y 
5-Ô-7-8 podrîan sumarse, ya que los dos subproblemas parecen no superponerse. / ; Esto 
darîa aün una heurîstica admisible? La respuesta es no, porque las soluciones del sub¬ 
problema 1-2-3-4 y del subproblema 5-Ô-7-8 para un estado compartirân casi seguramente 
algunos movimientos (es improbable que 1-2-3-4 pueda colocarse en su lugar sin tocar 
5-Ô-7-8, y viceversa). / ; Pcro y si no contamos estos movimientos? Es decir no registra- 
mos el costo total para resolver el problema 1-2-3-4, sino solamente el nümero de mo- 



Figura 4.9 Un subproblema del puzle-8 dado en la Figura 4.7. La tarea es conseguir las fichas 1 , 
2, 3 y 4 en sus posiciones correctas, sin preocuparse de lo que le pasan a las otras fichas. 
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vimientos que implican 1-2-3-4. Entonces es fâcil ver que la suma de los dos costos to- 
davia es una cota inferior del costo de resolver el problema entero. Esta es la idea que 
hay detrâs del modelo de bases de datos disjuntas. Usando taies bases de datos, es po- 
sible resolver puzles-15 aleatorios en milisegundos (el nümero de nodos generados se 
reduce en un factor de 10.000 comparado con la utilizaciôn de la distancia de Manhat¬ 
tan). Para puzles-24, se puede obtener una aceleraciôn de aproximadamente un millôn. 

El modelo de bases de datos disjuntas trabajan para puzles de deslizamiento de fi¬ 
chas porque el problema puede dividirse de tal modo que cada movimiento afecta solo 
a un subproblema, ya que solo se mueve una ficha a la vez. Para un problema como el 
cubo de Rubik, esta clase de subdivision no puede hacerse porque cada movimiento afec¬ 
ta a ocho o nueve de los 25 cubos. Actualmente, no esta claro como définir bases de da¬ 
tos disjuntas para taies problemas. 

Aprendizaje de heurfsticas desde la experiencia 

Una funciôn heuristica /?(»), como se supone, estima el costo de una soluciôn que co- 
mienza desde el estado en el nodo n. /Como podria un agente construir tal funciôn? Se 
dio una soluciôn en la secciôn anterior (idear problemas relajados para los cuales pue¬ 
de encontrarse fâcilmente una soluciôn ôptima). Otra soluciôn es aprender de la expe¬ 
riencia. «La experiencia» aqui significa la soluciôn de muchos 8-puzles, por ejemplo. 
Cada soluciôn ôptima en un problema del 8-puzle proporciona ejemplos para que pue- 
da aprender la funciôn h(n). Cada ejemplo se compone de un estado del camino solu¬ 
ciôn y el costo real de la soluciôn desde ese punto. A partir de estos ejemplos, se puede 
utilizar un algoritmo de aprendizaje inductivo para construir una funciôn h(n) que pue- 
da (con suerte) predecir los costos soluciôn para otros estados que surjan durante la büs- 
queda. Las técnicas para hacer esto utilizando redes neuronales, ârboles de decision, y 
otros métodos, se muestran en el Capitulo 18 (los métodos de aprendizaje por refuerzo, 
también aplicables, serân descritos en el Capitulo 21). 

Los métodos de aprendizaje inductivos trabajan mejor cuando se les suministran ca- 
racteristicas de un estado que sean relevantes para su evaluaciôn, mas que solo la des- 
cripciôn del estado. Por ejemplo, la caracteristica «nümero de fichas mal colocadas» 
podria ser ütil en la predicciôn de la distancia actual de un estado desde el objetivo. Lla- 
memos a esta caracteristica x x (n). Podriamos tomar 100 configuraciones del 8-puzle ge- 
neradas aleatoriamente y unir las estadisticas de sus costos de la soluciôn actual. 
Podriamos encontrar que cuando x 1 (n) es cinco, el coste medio de la soluciôn esta alre- 
dedor de 14, etcétera. Considerando estos datos, el valor de x 1 puede usarse para prede¬ 
cir h{n). Desde luego, podemos usar varias caracteristicas. Una segunda caracteristica 
x 2 {n) podria ser «el nümero de pares de fichas adyacentes que son también adyacentes 
en el estado objetivo». /Como deberian combinarse x 1 (n) y x n (n) para predecir /;(/?)? Una 
aproximaciôn comün es usar una combinaciôn lineal: 

h(n) = CjX^ri) + c 2 x 2 (n) 

Las constantes c 1 y c 2 se ajustan para dar el mejor ajuste a los datos reales sobre los cos¬ 
tos de la soluciôn. Presumiblemente, c, debe ser positivo y c 2 debe ser negativo. 
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4.3 Algoritmos de büsqueda local y problemas 
de optimizacion 


Los algoritmos de büsqueda que hemos visto hasta ahora se disenan para explorar sis- 
temâticamente espacios de büsqueda. Esta forma sistemâtica se alcanza manteniendo uno 
o mas caminos en memoria y registrando qué altemativas se han explorado en cada pun- 
to a lo largo del camino y cuâles no. Cuando se encuentra un objetivo, el camino a ese 
objetivo también constituye una soluciôn al problema. 

En muchos problemas, sin embargo, el camino al objetivo es irrelevante. Por ejem- 
plo, en el problema de las 8-reinas (véase la pagina 74), lo que importa es la configu- 
racion final de las reinas, no el orden en las cuales se anaden. Esta clase de problemas 
incluyen muchas aplicaciones importantes como diseno de circuitos integrados, dis- 
posiciôn del suelo de una fâbrica, programacion del trabajo en tiendas, programacion 
automâtica, optimizacion de redes de telecomunicaciones, dirigir un vehiculo, y la 
gestion de carteras. 

Si no importa el camino al objetivo, podemos considerar una clase diferente de al- 
büsqueda local goritmos que no se preocupen en absoluto de los caminos. Los algoritmos de busque- 
da local funcionan con un solo estado actual (mas que mültiples caminos) y 
generalmente se mueve solo a los vecinos del estado. lipicamente, los caminos segui- 
dos por la büsqueda no se retienen. Aunque los algoritmos de büsqueda local no son sis- 
temâticos, tienen dos ventajas claves: (1) usan muy poca memoria (por lo general una 
cantidad constante); y (2) pueden encontrar a menudo soluciones razonables en espa¬ 
cios de estados grandes o infinitos (continuos) para los cuales son inadecuados los al¬ 
goritmos sistemâticos. 


funciôn objetivo 


mâximo global 



mâximo local 

mâximo local piano 


estado actual 


• espacio de estados 


Figura 4.10 Un paisaje del espacio de estados unidimensional en el cual la elevaciôn corresponde 
a la funciôn objetivo. El objetivo es encontrar el mâximo global. La büsqueda de ascension de co- 
linas modiftca el estado actual para tratar de mejorarlo, como se muestra con la flécha. Se deftnen 
en el texto varios rasgos topogrâficos. 
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Ademâs de encontrar los objetivos, los algoritmos de büsqueda local son utiles para 
resolver problemas de optimizaciôn puros, en los cuales el objetivo es encontrar el me- 
jor estado segün una funciôn objetivo. Muchos problemas de optimizaciôn no encajan 
en el modelo «estândar» de büsqueda introducido en el Capitulo 3. Por ejemplo, la na- 
turaleza proporciona una funciôn objetivo (idoneidad o salud reproductiva) que la evo- 
luciôn Darwiniana intenta optimizar, pero no hay ningün «test objetivo» y ningün «coste 
de camino» para este problema. 

Para entender la büsqueda local, encontraremos muy ütil considerar la forma o el pai- 
saje del espacio de estados (como en la Figura 4.10). El paisaje tiene «posiciôn» (de- 
finido por el estado) y «elevaciôn» (definido por el valor de la funciôn de coste heuristica 
o funciôn objetivo). Si la elevaciôn corresponde al costo, enfonces el objetivo es encontrar 
el valle mas bajo (un minimo global); si la elevaciôn corresponde a una funciôn obje¬ 
tivo, enfonces el objetivo es encontrar el pico mas alto (un mâximo global). (Puedes con¬ 
vertir uno en el otro solamente al insertar un signo menos.) Los algoritmos de büsqueda 
local exploran este paisaje. Un algoritmo de büsqueda local completo siempre encuen- 
tra un objetivo si existe; un algoritmo ôptimo siempre encuentran un mmimo/mâximo 
global. 

Büsqueda de ascension de colinas 

En la Figura 4.11 se muestra el algoritmo de büsqueda de ascension de colinas. Es sim- 
plemente un bucle que continuamente se mueve en direcciôn del valor creciente, es de- 
cir, cuesta arriba. Termina cuando alcanza «un pico» en donde ningün vecino tiene un 
valor mas alto. El algoritmo no mantiene un ârbol de büsqueda, sino una estructura de 
datos del nodo actual que necesita solo el registre del estado y su valor de funciôn ob¬ 
jetivo. La ascension de colinas no mira delante mas alla de los vecinos inmediatos del 
estado actual. Se parece a lo que hacemos cuando tratamos de encontrar la cumbre del 
Everest en una niebla mientras sufrimos amnesia. 

Para ilustrar la ascension de colinas, usaremos el problema de las 8-reinas introdu¬ 
cido en la pagina 74. Los algoritmos de büsqueda local tipicamente usan una formula- 


funciôn Ascension-Colinas (p ro bIema) devuelve un estado que es un mâximo local 
entradas: problema, un problema 
variables locales: actual, un nodo 
vecino, un nodo 

actual <— HACER-NODO(ESTADO-lNICIAL[p;'06/eff!fl]) 

bucle hacer 

vecino <— sucesor de valor mas alto de actual 

si Valor | vecino | < VALORlactaa/] entonces devolver Estado[ arma /1 
actual <r- vecino 


Figura 4.11 El algoritmo de büsqueda ascension de colinas (la version de subida mas râpida), 
que es la técnica de büsqueda local mâs bâsica. En cada paso el nodo actual se sustituye por el me- 
jor vecino; en esta version, el vecino con el Valor mâs alto, pero si se utiliza una heuristica h de 
estimation de costos, séria el vecino con h mâs bajo. 
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ciôn de estados compléta, donde cada estado tiene a ocho reinas sobre el tablero, una 
por columna. La funcion sucesor devuelve todos los estados posibles generados moviendo 
una reina a otro cuadrado en la misma columna (enfonces cada estado tiene 8 X 7 = 56 
sucesores). La funcion de costo heurfstica h es el nümero de pares de reinas que se ata- 
can la una a la otra, directa o indirectamente. El minimo global de esta funcion es cero, 
que ocurre solo en soluciones perfectas. La Figura 4.12(a) muestra un estado con h = 17. 
La figura también muestra los valores de todos sus sucesores, con los mejores sucesores 
que tienen h = 12. Los algoritmos de ascension de colinas eligen tipicamente al azar en¬ 
tre el conjunto de los mejores sucesores, si hay mas de uno. 
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(b) 


Figura 4.12 (a) Un estado de 8-reinas con una heurfstica de estimacion de costos h = 17, mos- 

trando al valor de h para cada sucesor posible obtenido al mover una reina dentro de su columna. 
Los mejores movimientos estân marcados. (b) Un mfnimo local en el espacio de estados de las 8- 
reinas; el estado tiene h = 1 pero cada sucesor tiene un coste mâs alto. 


BÜSQUEDA LOCAL 
VORAZ 


A veces a la ascension de colinas se le llama busqueda local voraz porque toma un es¬ 
tado vecino bueno sin pensar hacia donde ir después. Aunque la avaricia sea considera- 
da uno de los siete pecados mortales, résulta que los algoritmos avaros a menudo 
funcionan bastante bien. La ascension de colinas a menudo hace el progreso muy râpi- 
do hacia una soluciôn, porque es por lo general bastante fâcil mejorar un estado malo. 
Por ejemplo, desde el estado de la Figura 4.12(a), se realizan solamente cinco pasos para 
alcanzar el estado de la Figura 4.12(b), que tiene h = 1 y es casi una soluciôn. Lamen- 
tablemente, la ascension de colinas a menudo se atasca por los motivos siguientes: 


• Mâximo local: un mâximo local es un pico que es mâs alto que cada uno de sus 
estados vecinos, pero mâs abajo que el mâximo global. Los algoritmos de ascen¬ 
sion de colinas que alcanzan la vecindad de un mâximo local irân hacia el pico, pero 
enfonces se atascarân y no podrân ir a ninguna otra parte. La Figura 4.10 ilustra el 
problema esquemâticamente. Mâs concretamente, el estado en la Figura 4.12(b) es 
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de hecho un mâximo local (es decir, un mi'nimo local para el coste /?); cada movi- 
miento de una sola reina hace la situaciôn peor. 

• Crestas: la Figura 4.13 muestra una cresta. Las crestas causan una secuencia de 
mâximos locales que hace muy dificil la navegaciôn para los algoritmos avaros. 

• Meseta: una meseta es un area del paisaje del espacio de estados donde la funcion 
de evaluaciôn es plana. Puede ser un mâximo local piano, del que no existe nin- 
guna salida ascendente, o una terraza, por la que se pueda avanzar (véase la Fi¬ 
gura 4.10). Una büsqueda de ascension de colinas podrfa ser incapaz de encontrar 
su camino en la meseta. 

En cada caso, el algoritmo alcanza un punto en el cual no se puede hacer ningün pro- 
greso. Comenzando desde un estado de las ocho reinas generado aleatoriamente, la as¬ 
cension de colinas por la zona mas escarpada se estanca el 86 por ciento de las veces, y 
resuelve solo el 14 por ciento de los problemas. Trabaja râpidamente, usando solamen- 
te cuatro pasos por régla general cuando tiene éxito y très cuando se estanca (no esta mal 
para un espacio de estados con 8 8 ~ 17 millones de estados). 

El algoritmo de la Figura 4.11 se para si alcanza una meseta donde el mejor sucesor 
tiene el mismo valor que el estado actual. Podrfa ser una buena idea no continuar (y per- 
mitir un movimiento latéral con la esperanza de que la meseta realmente sea una terra¬ 
za, como se muestra en la Figura 4.10)? La respuesta es por lo general si, pero debemos 
tener cuidado. Si siempre permitimos movimientos latérales cuando no hay ningün mo¬ 
vimiento ascendente, va a ocurrir un bucle infinito siempre que el algoritmo alcance un 
mâximo local piano que no sea una terraza. Una solucion comün es poner un limite so¬ 
bre el nümero de movimientos consecutivos latérales permitidos. Por ejemplo, podrfamos 
permitir hasta, digamos, 100 movimientos latérales consecutivos en el problema de las 
ocho reinas. Esto eleva el porcentaje de casos de problemas resueltos por la ascension de 



Figura 4.13 Ilustracion de por qué las crestas causan dificultades para la ascension de colinas. 
La rejilla de estados (circulos oscuros) se pone sobre una cresta que se eleva de izquierda a dere- 
cha y créa una secuencia de mâximos locales que no estân directamente relacionados el uno con el 
otro. De cada mâximo local, todas las acciones disponibles se senalan cuesta abajo. 
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colinas del 14 al 94 por ciento. El éxito viene con un coste: el algoritmo hace en prome- 
dio aproximadamente 21 pasos para cada caso satisfactorio y 64 para cada fracaso. 

Se han inventado muchas variantes de la ascension de colinas. La ascension de coli¬ 
nas estocâstica escoge aleatoriamente de entre los movimientos ascendentes; la probabi- 
lidad de selecciôn puede variar con la pendiente del movimiento ascendente. Este por lo 
general converge mas despacio que la subida mas escarpada, pero en algunos paisajes de 
estados encuentra mejores soluciones. La ascension de colinas de primera opciôn im¬ 
plémenta una ascension de colinas estocâstica generando sucesores al azar hasta que se gé¬ 
néra uno que es mejor que el estado actual. Esta es una buena estrategia cuando un estado 
tiene muchos (por ejemplo, miles) sucesores. El ejercicio 4.16 le pide investigar esto. 

Los algoritmos de ascension de colinas descritos hasta ahora son incompletos, a me- 
nudo dejan de encontrar un objetivo, cuando éste existe, debido a que pueden estancarse 
sobre mâximos locales. La ascension de colinas de reinicio aleatorio adopta el refrân co- 
nocido, «si al principio usted no tiene éxito, intente, intente otra vez». Esto conduce a una 
sérié de büsquedas en ascension de colinas desde los estados iniciales generados aleato¬ 
riamente 8 , parândose cuando se encuentra un objetivo. Es compléta con probabilidad acer- 
cândose a 1, por la razon trivial de que generarâ fmalmente un estado objetivo como el estado 
inicial. Si cada büsqueda por ascension de colinas tiene una probabilidad p de éxito, en¬ 
fonces el nümero esperado de reinicios requerido es \/p. Para ejemplos de ocho reinas sin 
permitir movimientos latérales, p ~ 0,14, enfonces necesitamos aproximadamente siete ite- 
raciones para encontrar un objetivo (seis fracasos y un éxito). El nümero esperado de pa¬ 
sos es el coste de una iteracion acertada mas (1 — p)/p veces el coste de fracaso, o 
aproximadamente 22 pasos. Cuando permitimos movimientos latérales, son necesarios 
1/0,94 ~ 1,06 iteraciones por régla general y (1 X 21) + (0,06/0,94) X 64 ~ 25 pasos. 
Para las ocho reinas, enfonces, la ascension de colinas de reinicio aleatorio es muy eficaz. 
Incluso para très millones de reinas, la aproximacion puede encontrar soluciones en me- 
nos de un minuto 9 . 

El éxito de la ascension de colinas dépende muchisimo de la forma del paisaje del es- 
pacio de estados: si hay pocos mâximos locales y mesetas, la ascension de colinas con rei- 
nicio aleatorio encontrarâ una solucion buena muy râpidamente. Por otro lado, muchos 
problemas reales tienen un paisaje que parece mâs bien una familia de puerco espines so¬ 
bre un suelo llano, con puerco espines en miniatura que viven en la punta de cada aguja 
del puerco espin, y asi indefinidamente. Los problemas NP-duros tipicamente tienen un 
nümero exponencial de mâximos locales. A pesar de esto, un mâximo local, razonable- 
mente bueno, a menudo se puede encontrar después de un nümero pequeno de reinicios. 


Busqueda de temple simulado 

Un algoritmo de ascension de colinas que nunca hace movimientos «cuesta abajo» hacia 
estados con un valor inferior (o coste mâs alto) garantiza ser incomplète», porque puede 


8 La generacion de un estado aleatorio de un espacio de estados especificado impllcitamente puede ser un 
problema difïcil en si mismo. 

9 Luby et al. (1993) demuestran que es mejor, a veces, reiniciar un algoritmo de büsqueda aleatoria después 
de cierta cantidad fija de tiempo y que puede ser mucho mâs eficiente que permitir que continue la büsque¬ 
da indefinidamente. Rechazar o limitar el nümero de movimientos latérales es un ejemplo de esto. 
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estancarse en un mâximo local. En contraste, un camino puramente aleatorio, es decir mo- 
viéndose a un sucesor elegido uniformemente aleatorio de un conjunto de sucesores, es 
completo, pero sumamente ineficaz. Por lo tanto, parece razonable intentar combinar la 
ascension de colinas con un camino aleatorio de algün modo que produzca tanto efica- 
cia como completitud. El temple simulado es ese algoritmo. En metalurgia, el temple 
es el proceso utilizado para templar o endurecer metales y cristales calentândolos a una 
temperatura alta y luego gradualmente enfriarlos, asi permite al material fundirse en un 
estado cristalino de energia baja. Para entender el temple simulado, cambiemos nuestro 
punto de vista de la ascension de colinas al gradiente descendente (es decir, minimizando 
el coste) e imaginemos la tarea de colocar una pelota de ping-pong en la grieta mas pro- 
funda en una superficie desigual. Si dejamos solamente rodar a la pelota, se pararâ en un 
minimo local. Si sacudimos la superficie, podemos echar la pelota del minimo local. El 
tmco es sacudir con bastante fuerza para echar la pelota de minimos locales, pero no lo 
bastante fuerte para desalojarlo del minimo global. La soluciôn del temple simulado 
debe comenzar sacudiendo con fuerza (es decir, a una temperatura alta) y luego gradual¬ 
mente reducir la intensidad de la sacudida (es decir, a mas baja temperatura). 

El bucle interno del algoritmo del temple simulado (Figura 4.14) es bastante si- 
milar a la ascension de colinas. En vez de escoger el mejor movimiento, sin embargo, 
escoge un movimiento aleatorio. Si el movimiento mejora la situaciôn, es siempre acep- 
tado. Por otra parte, el algoritmo acepta el movimiento con una probabilidad menor 
que uno. La probabilidad se disminuye exponencialmente con la «maldad» de movi¬ 
miento (la cantidad A E por la que se empeora la evaluacion). La probabilidad también 
disminuye cuando «la temperatura» T baja: los «malos» movimientos son mas pro¬ 
bables al comienzo cuando la temperatura es alta, y se hacen mas improbables cuan¬ 
do T disminuye. Uno puede demostrar que si el esquema disminuye T bastante despacio, 
el algoritmo encontrarâ un optimo global con probabilidad cerca de uno. 


funciôn TEMPLE-SiMULADOtpraWéroa, esquema) devuelve un estado soluciôn 
entradas: problema, un problema 

esquema, una aplicaciôn desde el tiempo a «temperatura» 
variables locales: actual, un nodo 

siguiente, un nodo 

T, una «temperatura» contrôla la probabilidad de un paso hacia abajo 

actual <— HACER-NoDo(EsTADO-lNiciAL[p/-oWema]) 

para t <— 1 a «= hacer 

T <— esquema[t\ 

si T = 0 entonces devolver actual 

siguiente <— un sucesor seleccionado aleatoriamente de actual 
A E <— Valor\ siguiente] — VALOR[acfMfll] 
si AE > 0 entonces actual <— siguiente 

en caso contrario actual <— siguiente solo con probabilidad e AE/T 


Figura 4.14 Algoritmo de busqueda de temple simulado, una version de la ascension de colinas 
estocâstico donde se permite descender a algunos movimientos. Los movimientos de descenso se 
aceptan fâcilmente al comienzo en el programa de templadura y luego menos, conforme pasa el 
tiempo. La entrada del esquema détermina el valor de T como una funciôn de tiempo. 
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BÜSQUEDA POR HAZ 
LOCAL 



BÜSQUEDA DE HAZ 
ESTOCÂSTICA 


ALGORITMO 

GENÉTICO 


A principios de los anos 80, el temple simulado fue utilizado ampliamente para 
resolver problemas de distribucion VLSI. Se ha aplicado ampliamente a programacion 
de una fâbrica y otras tareas de optimizacion a gran escala. En el Ejercicio 4.16, le 
pedimos que compare su funcionamiento con el de la ascension de colinas con reinicio 
aleatorio sobre el puzle de las /i-reinas. 

Büsqueda por haz local 

Guardar solamente un nodo en la memoria podria parecer una reacciôn extrema para el 
problema de limitaciones de memoria. El algoritmo 10 de büsqueda por haz local guar- 
da la pista de k estados (no solo uno). Comienza con estados generados aleatoriamente. 
En cada paso, se generan todos los sucesores de los k estados. Si alguno es un objetivo, 
paramos el algoritmo. Por otra parte, se seleccionan los k mejores sucesores de la lista 
compléta y repetimos. 

A primera vista, una büsqueda por haz local con k estados podria parecerse a eje- 
cutar k reinicios aleatorios en paralelo en vez de en secuencia. De hecho, los dos algo- 
ritmos son bastantes diferentes. En una büsqueda de reinicio aleatorio, cada proceso de 
büsqueda se ejecuta independientemente de los demâs. En una büsqueda por haz local, 
la informaciôn ûtil es pasada entre los k hilos paralelos de büsqueda. Por ejemplo, si 
un estado généra varios sucesores buenos y los otros k — 1 estados generan sucesores 
malos, entonces el efecto es que el primer estado dice a los demâs, « ; Venid aqui, la hier- 
ba es mas verde!» El algoritmo râpidamente abandona las büsquedas infructuosas y mue- 
ve sus recursos a donde se hace la mayor parte del progreso. 

En su forma mas simple, la büsqueda de haz local puede sufrir una carencia de di- 
versidad entre los k estados (se pueden concentrar râpidamente en una pequena région 
del espacio de estados, haciendo de la büsqueda un poco mâs que una version cara de 
la ascension de colinas). Una variante llamada büsqueda de haz estocâstica, anâlo- 
ga a la ascension de colinas estocâstica, ayuda a aliviar este problema. En vez de ele- 
gir los k mejores del conjunto de sucesores candidatos, la büsqueda de haz estocâstica 
escoge a k sucesores aleatoriamente, con la probabilidad de elegir a un sucesor como 
una funcion creciente de su valor. La büsqueda de haz estocâstica muestra algün pa- 
recido con el proceso de seleccion natural, por lo cual los «sucesores» (descendan¬ 
tes) de un «estado» (organismo) pueblan la siguiente generacion segün su «valor» 
(idoneidad o salud). 

Algoritmos genéticos 

Un algoritmo genético (o AG) es una variante de la büsqueda de haz estocâstica en la 
que los estados sucesores se generan combinando dos estados padres, mâs que modifi- 
car un solo estado. La analogfa a la seleccion natural es la misma que con la büsqueda 
de haz estocâstica, excepto que ahora tratamos con reproducciôn sexual mâs que con la 
reproduccion asexual. 


10 


Büsqueda por haz local es una adaptaciôn de la büsqueda de haz, que es un algoritmo basado en camino. 
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Como en la büsqueda de haz, los AGs comienzan con un conjunto de k estados ge- 
nerados aletaoriamente, llamados poblaciôn. Cada estado, o individuo, esta represen- 
tado como una cadena sobre un alfabeto finito (el mas comün, una cadenas de Os y ls). 
Por ejemplo, un estado de las ocho reinas debe especificar las posiciones de las ocho rei¬ 
nas, cada una en una columna de ocho cuadrados, y se requieren 8 X log 2 8 = 24 bits. 
O bien, el estado podria representarse como ocho digitos, cada uno en el rango de uno 
a ocho (veremos mas tarde que las dos codificaciones se comportan de forman diferen- 
te). La Figura 4.15(a) muestra una poblaciôn de cuatro cadenas de ocho digitos que re- 
presentan estados de ocho reinas. 

En la Figura 4.15(b)-(e) se muestra la producciôn de la siguiente generaciôn de es¬ 
tados. En (b) cada estado se tasa con la funciôn de evaluaciôn o (en terminologia AG) 
funciôn idoneidad la funciôn idoneidad. Una funciôn de idoneidad deberia devolver valores mas altos para 
estados mejores, asi que, para el problema de las 8-reinas utilizaremos el nümero de pa¬ 
res de reinas no atacadas, que tiene un valor de 28 para una soluciôn. Los valores de los 
cuatro estados son 24, 23, 20 y 11. En esta variante particular del algoritmo genético, la 
probabilidad de ser elegido para la reproducciôn es directamente proporcional al resul- 
tado de idoneidad, y los porcentajes se muestran junto a los tanteos. 

En (c), se seleccionan dos pares, de manera aleatoria, para la reproducciôn, de acuer- 
do con las probabilidades en (b). Notemos que un individuo se selecciona dos veces y 
uno ninguna 11 . Para que cada par se aparee, se elige aleatoriamente un punto de cruce 
de las posiciones en la cadena. En la Figura 4.15 los puntos de cruce estân después del 
tercer digito en el primer par y después del quinto digito en el segundo par 12 . 

En (d), los descendientes se crean cmzando las cadenas paternales en el punto de 
cruce. Por ejemplo, el primer hijo del primer par consigue los très primeros digitos del 


CRUCE 


POBLACION 

INDIVIDUO 



11 Hay muchas variantes de esta régla de selecciôn. Puede demostrarse que el método selectivo, en el que 
se desechan todos los individuos debajo de un umbral dado, converge mas râpido que la version aleatoria 
(Basum et al., 1995). 

12 Son aquf los asuntos de codificaciôn. Si se usa una codificaciôn de 24 bit en vez de ocho digitos, enton- 
ces el punto de cruce tiene 2/3 de posibilidad de estar en medio de un digito, que résulta en una mutaciôn 
esencialmente arbitraria de ese digito. 
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primer padre y los digitos restantes del segundo padre, mientras que el segundo hijo 
consigue los très primeros digitos del segundo padre y el resto del primer padre. En la 
Figura 4.16 se muestran los estados de las ocho reinas implicados en este paso de re- 
producciôn. El ejemplo ilustra el hecho de que, cuando dos estados padres son bastan- 
te diferentes, la operaciôn de cruce puede producir un estado que esta lejos de cualquiera 
de los estados padre. Esto es, a menudo, lo que ocurre al principio del proceso en el 
que la poblaciôn es bastante diversa, asi que el cruce (como en el temple simulado) con 
frecuencia realiza pasos grandes, al principio, en el espacio de estados en el proceso de 
büsqueda y pasos mas pequenos, mas tarde, cuando la mayor parte de individuos son 
bastante similares. 
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Figura 4.16 Los estados de las ocho reinas correspondientes a los dos primeros padres de la Fi¬ 
gura 4.15(c) y el primer descendiente de Figura 4.15(d). Las columnas sombreadas se pierden en 
el paso de la transiciôn y las columnas no sombreadas se mantienen. 


MUTACIÔN 


ESQUEMA 


Finalmente, en (e), cada posiciôn esta sujeta a la mutaciôn aleatoria con una pequena 
probabilidad independiente. Un digito fue transformado en el primer, tercer, y cuarto des¬ 
cendiente. El problema de las 8-reinas corresponde a escoger una reina aleatoriamente 
y moverla a un cuadrado aleatorio en su columna. La figura 4.17 describe un algoritmo 
que implémenta todos estos pasos. 

Como en la büsqueda por haz estocâstica, los algoritmos genéticos combinan una 
tendencia ascendente con exploraciôn aleatoria y cambian la informaciôn entre los hi- 
los paralelos de büsqueda. La ventaja primera, si hay alguna, del algoritmo genético 
viene de la operaciôn de cruce. Aün puede demostrarse matemâticamente que, si las 
posiciones del côdigo genético se permutan al principio en un orden aleatorio, el cru¬ 
ce no comunica ninguna ventaja. Intuitivamente, la ventaja viene de la capacidad del 
cruce para combinar bloques grandes de letras que han evolucionado independiente- 
mente para asf realizar funciones ütiles, de modo que se aumente el nivel de granula- 
ridad en el que funciona la büsqueda. Por ejemplo, podria ser que poner las très 
primeras reinas en posiciones 2, 4 y 6 (donde ellas no se atacan las unas a las otras) 
constituya un bloque ütil que pueda combinarse con otros bloques para construir una 
soluciôn. 

La teorfa de los algoritmos genéticos explica como esta teoria trabaja utilizando 
la idea de un esquema, una subcadena en la cual algunas de las posiciones se pueden 
dejar inespecificas. Por ejemplo, el esquema 246***** describe todos los estados de 
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funciôn ALGORiTMO-GENÉTicoj/wMaaon .Idoneidad) devuelve un individuo 
entradas: poblaciôn, un conjunto de individuos 

Idoneidad, una funciôn que mide la capacidad de un individuo 

repetir 

nueva_poblaciôn <— conjunto vatio 
bucle para i desde 1 hasta Tamano(/?o/>/<7cwm) hacer 
x <— Selecciôn-Aleatoria {poblaciôn, Idoneidad) 
y <— SELECCIÔN-ALEATORIA(/WÔ/tfri0M, IDONEIDAD) 

hijo <— ReproducirCx-j) 

si (probabilidad aleatoria pequena) entonces hijo <— Mutar (hijo) 
anadir hijo a nueva problaciôn 
poblaciôn <— nueva poblaciôn 

hasta que algün individuo es bastante adecuado, o ha pasado bastante tiempo 
devolver el mejor individuo en la poblaciôn, de acuerdo con la Idoneidad 


funciôn ReprodccirIa',}') devuelve un individuo 
entradas: x,y, padres individuales 

n <— Longitud(a) 
c <r- numéro aleatorio de 1 a « 

devolver Anadir(Subcadena(x, 1, c),Subcadena(v, c + 1, n )) 


Figura 4.17 Algoritmo genético. El algoritmo es el mismo que el de la Figura 4.15, con una va¬ 
riation: es la version mâs popular; cada cruce de dos padres produce solo un descendiente, no dos. 


ocho reinas en Los cuales las très primeras reinas estân en posiciones 2, 4 y 6 respec- 
tivamente. A las cadenas que emparejan con el esquema (tal como 24613578) se les 
llaman instancias del esquema. Se puede demostrar que, si la idoneidad media de las 
instancias de un esquema esta por encima de la media, entonces el nümero de instan¬ 
cias del esquema dentro de la poblaciôn crecerâ con el tiempo. Claramente, este efec- 
to improbablemente sera significativo si los bits adyacentes estân totalmente no 
relacionados uno al otro, porque entonces habrâ pocos bloques contiguos que pro- 
porcionen un beneficio consistente. Los algoritmos genéticos trabajan mejor cuando 
los esquemas corresponden a componentes significativos de una soluciôn. Por ejem- 
plo, si la cadenas son una representaciôn de una antena, entonces los esquemas pue- 
den representar los componentes de la antena, tal como reflectores y deflectores. Un 
componente bueno probablemente estarâ bien en una variedad de disenos diferentes. 
Esto sugiere que el uso acertado de algoritmos genéticos requiere la ingenieria cui- 
dadosa de la representaciôn. 

En la prâctica, los algoritmos genéticos han tenido un impacto extendido sobre pro- 
blemas de optimizaciôn, como disposiciôn de circuitos y el programado del trabajo en 
tiendas. Actualmente, no esta claro si lo solicitado de los algoritmos genéticos provie- 
ne de su funcionamiento o de sus orfgenes estéticamente agradables de la teoria de la 
evoluciôn. Se han hecho muchos trabajos para identificar las condiciones bajo las cua¬ 
les los algoritmos genéticos funcionan bien. 
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EvOLUCIÔN Y BÜSQUEDA 

La teorfa de la évolution fue desarrollada por Charles Darwin (1859) en El Origen de Especies por 
medio de la Selecciôn Natural. La idea central es simple: las variaciones (conocidas como mutacio- 
nes) ocurren en la reproduction y serân conservadas en generaciones sucesivas aproximadamente en 
la proportion de su efecto sobre la idoneidad reproductiva. 

La teoria de Darwin fue desarrollada sin el conocimiento de como los rasgos de los organismos 
se pueden heredar y modificar. Las leyes probabilisticas que gobiernan estos procesos fueron iden- 
tificadas primero por Gregor Mendel (1866), un monje que expérimenté con guisantes dulces usan- 
do lo que él llamô la fertilizacion artificial. Mucho mas tarde, Watson y Crick (1953) identificaron 
la estructura de la molécula de ADN y su alfabeto, AGTC (adenina, guanina, timina, citocina). En 
el modelo estândar, la variation ocurre tanto por mutaciones en la secuencia de letras como por «el 
cruce» (en el que el ADN de un descendiente se généra combinando secciones largas del ADN de 
cada padre). 

Ya se ha descrito la analogia con algoritmos de büsqueda local; la diferencia principal entre la 
büsqueda de haz estocâstica y la évolution es el uso de la reproduction sexual, en donde los suce- 
sores se generan a partir de multiples organismos mas que de solamente uno. Los mecanismos ac- 
tuales de la évolution son, sin embargo, mucho mas ricos de lo que permiten la mayoria de los 
algoritmos genéticos. Por ejemplo, las mutaciones pueden implicar inversiones, copias y movi- 
mientos de trozos grandes de ADN; algunos virus toman prestado el ADN de un organismo y lo in- 
sertan en otro; y hay genes reemplazables que no hacen nada pero se copian miles de veces dentro 
del genoma. Hay hasta genes que envenenan células de companeros potenciales que no llevan el gen, 
bajando el aumento de sus posibilidades de réplica. Lo mas importante es el hecho de que los genes 
codifican los mecanismos por los cuales se reproduce y traslada el genoma en un organismo. En al¬ 
goritmos genéticos, esos mecanismos son un programa separado que no esta representado dentro de 
las cadenas manipuladas. 

La évolution Darwiniana podrfa parecer mas bien un mecanismo ineficaz, y ha generado ciega- 
mente aproximadamente 10 45 organismos sin mejorar su büsqueda heuristica un âpice. 50 anos antes 
de Darwin, sin embargo, el gran naturalista francés Jean Lamarck ( 1809) propuso una teoria de évo¬ 
lution por la cual los rasgos adquiridos por la adaptaciôn durante la vida de un organismo serian pa- 
sados a su descendiente. Tal proceso séria eficaz, pero no parece ocurrir en la naturaleza. Mucho mas 
tarde, James Baldwin (1896) propuso una teoria superficialmente similar: aquel comportamiento 
aprendido durante la vida de un organismo podria acelerar la évolution. A diferencia de la de Lamarck, 
la teoria de Baldwin es completamente consecuente con la évolution Darwiniana, porque confia en pre- 
siones de selecciôn que funcionan sobre individuos que han encontrado ôptimos locales entre el con- 
junto de comportamientos posibles permitidos por su estructura genética. Las simulaciones por 
computadores modernos confirman que «el efecto de Baldwin» es real, a condition de que la évolu¬ 
tion «ordinaria» pueda crear organismos cuya medida de rendimiento esta, de alguna manera, corre- 
lacionada con la idoneidad actual. 
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4.4 Büsqueda local en espacios continuos 


En el Capitulo 2, explicamos la diferencia entre entornos discretos y continuos, sena- 
lando que la mayor parte de los entornos del mundo real son continuos. Aün ninguno 
de los algoritmos descritos puede manejar espacios de estados continuos, ;la funciôn su- 
cesor en la mayor parte de casos devuelve infinitamente muchos estados! Esta seccion 
proporciona una muy breve introducciôn a técnicas de büsqueda local para encontrar so- 
luciones ôptimas en espacios continuos. La literatura sobre este tema es enorme; mu- 
chas de las técnicas bâsicas se originaron en el siglo xvn, después del desarrollo de câlculo 
Newton y Leibniz 13 . Encontraremos usos para estas técnicas en varios lugares del libro, 
incluso en los capitulos sobre aprendizaje, vision y robôtica. En resumen, cualquier cosa 
que trata con el mundo real. 

Comencemos con un ejemplo. Supongamos que queremos colocar très nuevos 
aeropuertos en cualquier lugar de Rumama, de forma tal que la suma de las distancias al 
cuadrado de cada ciudad sobre el mapa (Figura 3.2) a su aeropuerto mas cercano sea rm- 
nima. Enfonces el espacio de estados esta definido por las coordenadas de los aeropuer¬ 
tos: (Xj, y,), (x 2 , y 2 ), y (x 3 , >>,). Es un espacio seis-dimensional ; también decimos que los 
estados estân definidos por seis variables (en general, los estados estân definidos por un 
vector /z-dimcnsional de variables, x). Moverse sobre este espacio se corresponde a mo- 
vimientos de uno o varios de los aeropuertos sobre el mapa. La funciôn objetivo/(Xj, y v 
x 0 , y 2 , x 3 , y 3 ) es relativamente fâcil calcularla para cualquier estado particular una vez que 
tenemos las ciudades mas cercanas, pero bastante complicado anotar en general. 

Un modo de evitar problemas continuos es simplemente discretizar la vecindad de 
cada estado. Por ejemplo, podemos movernos solo sobre un aeropuerto a la vez, en la 
direcciôn x o y, en una cantidad fija ±5. Con seis variables, nos da 12 sucesores para 
cada estado. Podemos aplicar enfonces cualquiera de los algoritmos de büsqueda local 
descritos anteriormente. Uno puede aplicar también la ascension de colinas estocâstica 
y el temple simulado directamente, sin discretizar el espacio. Estos algoritmos eligen a 
los sucesores aleatoriamente, que pueden hacerse por la generaciôn de vectores aleato- 
rios de longitud 8. 


Hay muchos métodos que intentan usar el gradiente del paisaje para encontrar un 


GRADIENTE 


mâximo. El gradiente de la funciôn objetivo es un vector Vf que nos da la magnitud y 
la direcciôn de la inclinaciôn mas escarpada. Para nuestro problema, tenemos 



En algunos casos, podemos encontrar un mâximo resolviendo la ecuaciôn Vf = 0 (esto 
podria hacerse, por ejemplo, si estamos colocando solamente un aeropuerto; la soluciôn 
es la media aritmética de todas las coordenadas de las ciudades). En muchos casos, sin 
embargo, esta ecuaciôn no puede resolverse de forma directa. Por ejemplo, con très ae¬ 
ropuertos, la expresiôn para el gradiente dépende de qué ciudades son las mas cercanas 
a cada aeropuerto en el estado actual. Esto significa que podemos calcular el gradiente 


13 Un conocimiento bâsico de câlculo multivariante y aritmética vectorial es ütil cuando uno lee esta seccion. 
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GRADIENTE EMPl'RICO 


LINEA DE BÜSQUEDA 


NEWTON-RAPHSON 


HESIANA 


OPTIMIZACIÔN CON 
RESTRICCIONES 


PROGRAMACIÔN 

LINEAL 


localmente pero no globalmente. Incluso, podemos realizar todavfa la ascension de co- 
linas por la subida mas escarpada poniendo al dia el estado actual con la formula 

x <— x + aV/(x) 

donde a es una constante pequena. En otros casos, la funcion objetivo podrîa no estar 
disponible de una forma diferenciable, por ejemplo, el valor de un conjunto particu- 
lar de posiciones de los aeropuertos puede determinarse ejecutando algün paquete de 
simulaciôn econômica a gran escala. En esos casos, el llamado gradiente empîrico pue¬ 
de determinarse evaluando la respuesta a pequenos incrementos y decrecimientos en cada 
coordenada. La büsqueda de gradiente empirico es la misma que la ascension de coli- 
nas con subida mas escarpada en una version discretizada del espacio de estados. 

Bajo la frase «a es una constante pequena» se encuentra una enorme variedad de mé- 
todos ajustando a. El problema bâsico es que, si a es demasiado pequena, necesitamos 
demasiados pasos; si a es demasiado grande, la büsqueda podria pasarse del mâximo. 
La técnica de lînea de büsqueda trata de vencer este dilema ampliando la direccion del 
gradiente actual (por lo general duplicando repetidamente a ) hasta que/comience a dis- 
minuir otra vez. El punto en el cual esto ocurre se convierte en el nuevo estado actual. 
Hay varias escuelas de pensamiento sobre cômo debe elegirse la nueva direccion en este 
punto. 

Para muchos problemas, el algoritmo mas eficaz es el venerable método de New- 
ton-Raphson (Newton, 1671; Raphson, 1690). Es una técnica general para encontrar rai- 
ces de funciones, es decir la soluciôn de ecuaciones de la forma g(x) = 0. Trabaja 
calculando una nueva estimaciôn para la raiz x segün la formula de Newton. 

X <- X - g{x)/g'{x) 

Para encontrar un mâximo o mmimo de/, tenemos que encontrar x tal que el gradien¬ 
te es cero (es decir, V/(x) = 0). Asf g(x), en la formula de Newton, se transforma en 
V/(x), y la ecuaciôn de actualizaciôn puede escribirse en forma de vector-matriz como 

X <- X - H/ 7 (x) V/(x) 

donde H^(x) es la matriz Hesiana de segundas derivadas, cuyo los elementos H j; estân 
descritos por d 2 f/dx : dx r Ya que el Hesiano tiene n 2 entradas, Newton-Raphson se hace 
costoso en espacios dimensionalmente altos, y por tanto, se han desarrollado muchas apro- 
ximaciones. 

Los métodos locales de büsqueda sufren de mâximos locales, crestas, y mesetas tan¬ 
to en espacios de estados continuos como en espacios discretos. Se pueden utilizar el rei- 
nicio aleatorio y el temple simulado y son a menudo provechosos. Los espacios continuos 
dimensionalmente altos son, sin embargo, lugares grandes en los que es fâcil perderse. 

Un tema final, que veremos de pasada, es la optimizaciôn con restricciones. Un pro¬ 
blema de optimizaciôn esta restringido si las soluciones debieran satisfacer algunas res¬ 
tricciones sobre los valores de cada variable. Por ejemplo, en nuestro problema de situar 
aeropuertos, podria restringir los lugares para estar dentro de Rumania y sobre la tierra 
firme (mas que en medio de lagos). La dificultad de los problemas de optimizaciôn con 
restricciones dépende de la naturaleza de las restricciones y la funcion objetivo. La ca- 
tegoria mas conocida es la de los problemas de programaciôn lineal, en los cuales las 
restricciones deben ser desigualdades lineales formando una région convexa y la funcion 
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objetiva es también lineal. Los problemas de programacion lineal pueden resolverse en 
tiempo polinomial en el nümero de variables. También se han estudiado problemas con 
tipos diferentes de restricciones y funciones objetivo (programacion cuadrâtica, pro- 
gramaciôn cônica de segundo orden, etcétera). 


4.5 Agentes de busqueda online y ambientes 
desconocidos 


BÜSQUEDA OFFLINE 


BÜSQUEDA ONLINE 


PROBLEMA DE 
EXPLORACIÔN 


Hasta ahora nos hemos centrado en agentes que usan algoritmos de busqueda offline. 
Ellos calculan una soluciôn compléta antes de poner un pie en el mundo real (véase la 
Figura 3.1), y luego ejecutan la soluciôn sin recurrir a su percepciones. En contraste, un 
agente de busqueda en linea (online) 14 funciona intercalando el câlculo y la acciôn: 
primero toma una acciôn, enfonces observa el entorno y calcula la siguiente acciôn. La 
busqueda online es una buena idea en dominios dinâmicos o semidinâmicos (dominios 
donde hay una penalizaciôn por holgazanear y por utilizar demasiado tiempo para cal- 
cular). La büsqueda online es una idea incluso mejor para dominios estocâsticos. En ge¬ 
neral, una büsqueda offline deberia presentar un plan de contingencia exponencialmente 
grande que considéré todos los acontecimientos posibles, mientras que una büsqueda on¬ 
line necesita solo considerar lo que realmente pasa. Por ejemplo, a un agente que juega 
al ajedrez se le aconseja que haga su primer movimiento mucho antes de que se haya 
resuelto el curso completo del juego. 

La büsqueda online es una idea necesaria para un problema de exploraciôn, don¬ 
de los estados y las acciones son desconocidos por el agente; un agente en este estado 
de ignorancia debe usar sus acciones como experimentos para determinar qué hacer des- 
pués, y a partir de ahi debe intercalar el câlculo y la acciôn. 

El ejemplo bâsico de büsqueda online es un robot que se coloca en un edificio nue- 
vo y lo debe explorar para construir un mapa, que puede utilizar para ir desde A & B. Los 
métodos para salir de laberintos (conocimiento requerido para aspirar a ser héroe de la 
Antigüedad) son también ejemplos de algoritmos de büsqueda online. Sin embargo, la 
exploraciôn espacial no es la ünica forma de la exploraciôn. Considéré a un bébé recién 
nacido: tiene muchas acciones posibles, pero no sabe los resultados de ellas, y ha expe- 
rimentado solo algunos de los estados posibles que puede alcanzar. El descubrimiento gra¬ 
duai del bébé de como trabaja el mundo es, en parte, un proceso de büsqueda online. 


Problemas de büsqueda en lmea ( online ) 

Un problema de büsqueda online puede resolverse solamente por un agente que ejecu- 
te acciones, mas que por un proceso puramente computacional. Asumiremos que el agen¬ 
te sabe lo siguiente: 


14 El término «en lmea (online)» es comünmente utilizado en informâtica para referirse a algoritmos que de- 
ben tratar con los datos de entrada cuando se reciben, mâs que esperar a que esté disponible el conjunto en¬ 
tera de datos de entrada. 
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• Acciones ( 5 ), que devuelve una lista de acciones permitidas en el estado s; 

• Funciones de coste individual c(s, a, s') (notar que no puede usarse hasta que el 
agente sepa que s' es el resultado); y 

• Test-Objetivo(s). 


PROPORCION 

COMPETITIVA 


Notemos en particular que el agente no puede tener acceso a los sucesores de un estado 
excepta si intenta realmente todas las acciones en ese estado. Por ejemplo, en el problema 
del laberinto de la Figura 4.18, el agente no sabe que Subir desde (1,1) conduce a (1,2); 
ni, habiendo hecho esta, sabe que Bajar lo devolverâ a (1,1). Este grado de ignorancia 
puede reducirse en algunas aplicaciones (para ejemplo, un robot explorador podria sa- 
ber como trabajan sus acciones de movimiento y ser ignorante solo de las posiciones de 
los obstâculos). 

Asumiremos que el agente puede reconocer siempre un estado que ha visitado an- 
teriormente, y asumiremos que las acciones son deterministas (en el Capitulo 17, se re- 
lajarân estos dos ültimos axiomas). Finalmente, el agente podria tener acceso a una 
funciôn heurfstica admisible h(s) que estime la distancia del estado actual a un estado 
objetivo. Por ejemplo, en la Figura 4.18, el agente podria saber la posiciôn del objetivo 
y ser capaz de usar la distancia heuristica de Manhattan. 

Tipicamente, el objetivo del agente es alcanzar un estado objetivo minimizando el 
coste (otro objetivo posible es explorar simplemente el entorno entero). El costo es el 
costo total del camino por el que el agente viaja realmente. Es comün comparar este cos¬ 
to con el costo del camino que el agente seguiria si supiera el espacio de büsqueda de 
antemano, es decir, el camino mas corto actual (o la exploraciôn compléta mas corta). 
En el lenguaje de algoritmos online, se llama proporciôn competitiva; nos gustaria que 
fuera tan pequena como sea posible. 

Aunque ésta suene como una peticion razonable, es fâcil ver que la mejor propor- 
cion alcanzable competitiva es infinita en algunos casos. Por ejemplo, si algunas accio¬ 
nes son irréversibles, la büsqueda online podria alcanzar, por casualidad, un estado sin 
salida del cual no es accesible ningün estado objetivo. 

Quizâs encuentre el término «por casualidad» poco convincente (después de todo, 
podria haber un algoritmo que no tome el camino sin salida mientras explora). Nuestra 
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Figura 4.18 Un problema sencillo de un laberinto. El agente comienza en S y debe alcanzar G, 

pero no sabe nada del entorno. 
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ARGUMENT!) DE 
ADVERSARIO 


SEGURAMENTE 

EXPLORABLE 


reclamacion, para ser mas precisos, consiste en que ningûn algoritmo puede evitar ca- 
llejones sin salida en todos los espacios de estados. Considéré los dos espacios de es- 
tados sin salida de la Figura 4.19 (a). A un algoritmo de büsqueda online que haya visitado 
los estados S y A, los dos espacios de estados parecen idénticos, entonces debe tomar la 
misma decision en ambos. Por lo tanto, fallarâ en uno de ellos. Es un ejemplo de un ar¬ 
gumente de adversario (podemos imaginar un adversario que construye el espacio de 
estados, mientras el agente lo explora, y puede poner el objetivo y callejones sin salida 
donde le guste). 

Los callejones sin salida son una verdadera dificultad para la exploracion de un ro¬ 
bot (escaleras, rampas, acantilados, y todas las clases de posibilidades présentes en te- 
rrenos naturales de acciones irréversibles). Para avanzar, asumiremos simplemente que 
el espacio de estados es seguramente explorable, es decir, algün estado objetivo es al- 
canzable desde cualquier estado alcanzable. Los espacios de estados con acciones ré¬ 
versibles, como laberintos y 8-puzles, pueden verse como grafos no-dirigidos y son 
claramente explorables. 

Incluso en entornos seguramente explorables no se puede garantizar ninguna propor- 
cion competitiva acotada si hay caminos de costo ilimitado. Esto es fâcil de demostrar en 
entornos con acciones irréversibles, pero de hecho permanece cierto también para el caso 
réversible, como se muestra en la Ligura 4.19(b). Por esta razon, es comün describir el fun- 
cionamiento de los algoritmos de büsqueda online en términos del tamano del espacio de 
estados entero mas que, solamente, por la profundidad del objetivo mas superficial. 



Figura 4.19 (a) Dos espacios de estados que podrian conducir a un agente de büsqueda online a 

un callejon sin salida. Cualquier agente fallarâ en al menos uno de estos espacios. (b) Un entomo 
de dos-dimensiones que puede hacer que un agente de büsqueda online siga una ruta arbitrariamente 
ineficaz al objetivo. Ante cualquier opcion que tome el agente, el adversario bloquea esa ruta con 
otra pared larga y delgada, de modo que el camino seguido sea mucho mas largo que el camino me- 
jor posible. 
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Agentes de büsqueda en lfnea ( online ) 

Después de cada acciôn, un agente online recibe una percepcion al decirle que estado 
ha alcanzado; de esta informaciôn, puede aumentar su mapa del entorno. El mapa ac- 
tual se usa para decidir dônde ir después. Esta intercalaciôn de planificaciôn y acciôn 
significa que los algoritmos de büsqueda online son bastante diferentes de los algorit- 
mos de büsqueda offline vistos anteriormente. Por ejemplo, los algoritmos offline como 
A* tienen la capacidad de expandir un nodo en una parte del espacio y luego inmedia- 
tamente expandir un nodo en otra parte del espacio, porque la expansion de un nodo im- 
plica simulaciôn mas que verdaderas acciones. Un algoritmo online, por otra parte, 
puede expandir solo el nodo que ocupa fïsicamente. Para evitar viajar a través de todo 
el ârbol para expandir el siguiente nodo, parece mejor expandir los nodos en un orden 
local. La büsqueda primera en profundidad tiene exactamente esta propiedad, porque 
(menos cuando volvemos hacia atrâs) el siguiente nodo a expandir es un hijo del nodo 
anteriormente expandido. 

En la Figura 4.20 se muestra un agente de büsqueda primera en profundidad onli¬ 
ne. Este agente almacena su mapa en una tabla, resultado[a,s\, que registra el estado que 
résulta de ejecutar la acciôn a en el estado s. Siempre que una acciôn del estado actual 
no haya sido explorada, el agente intenta esa acciôn. La dificultad viene cuando el agen¬ 
te ha intentado todas las acciones en un estado. En la büsqueda primero en profundidad 
offline, el estado es simplemente quitado de la cola; en una büsqueda online, el agente 
tiene que volver atrâs fïsicamente. La büsqueda primero en profundidad, significa vol- 
ver al estado el cual el agente incorpora el estado actual mas recientemente. Esto se con- 


funciôn Agente-BPP-Online(P) devuelve una acciôn 

entradas: s', una percepcion que identifica el estado actual 

estâtico: resultado, una tabla, indexada por la acciôn y el estado, inicialmente vacfa 

noexplorados, una tabla que enumera, para cada estado visitado, las acciones 
todavfa no intentadas 

nohaciatras, una tabla que enumera, para cada estado visitado, los nodos hacia 
atrâs todavfa no intentados 
s,a, el estado y acciôn previa, inicialmente nula 

si Test-Objetivo(s') entonces devolver parar 
si s' es un nuevo estado entonces noexplorados[s' | <— Acciones(s') 
si s es no nulo entonces hacer 
resultado[a,s] <— s' 
anadir s al trente de nohaciatras\s' \ 
si noexplorados [s ' ] esta vacfo entonces 

si nohaciatras[s'\ esta vacfo entonces devolver parar 

en caso contrario a <— una acciôn b tal que resultado[b, s'] = Pop(nohaciatras\s']) 
en caso contrario a <— Pop (noexplorados[s']) 
s <— s' 

devolver a 


Figura 4.20 Un agente de büsqueda online que utiliza la exploraciôn primero en profundidad. El 
agente es aplicable, solamente, en espacios de büsqueda bidireccionales. 
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sigue guardando una tabla que pone en una lista, para cada estado, los estados predece- 
sores a los cuales aün no ha vuelto. Si el agente se ha quedado sin estados a los que vol- 
ver, entonces su büsqueda se ha completado. 

Recomendamos al lector que compruebe el progreso del Agente-BPP-Online 
cuando se aplica al laberinto de la Figura 4.18. Es bastante fâcil ver que el agente, en 
el caso peor, terminarâ por cruzar cada enlace en el espacio de estados exactamente dos 
veces. Por exploracion, esto es lo optimo; para encontrar un objetivo, por otra parte, la 
proporcion competitiva del agente podria ser arbitrariamente mala si se viaja sobre un 
camino largo cuando hay un objetivo directamente al lado del estado inicial. Una va¬ 
riante online de la profundidad iterativa resuelve este problema; para un entorno re- 
presentado por un ârbol uniforme, la proporcion competitiva del agente es una constante 
pequena. 

A causa de su método de vuelta atrâs, el Agente-BPP-Online trabaja solo en espa- 
cios de estados donde las acciones son réversibles. Hay algoritmos ligeramente mas com- 
plejos que trabajan en espacios de estados generales, pero ninguno de estos algoritmos 
tiene una proporcion competitiva acotada. 


Büsqueda local en lfnea ( online ) 

Como la büsqueda primera en profundidad, la büsqueda de ascension de colinas tie¬ 
ne la propiedad de localidad en sus expansiones de los nodos. jDe hecho, porque man- 
tiene un estado actual en memoria, la büsqueda de ascension de colinas es ya un algoritmo 
de büsqueda onlinel Desafortunadamente, no es muy ütil en su forma mas simple por¬ 
que déjà al agente que se sitüe en mâximos locales con ningün movimiento que hacer. 
Por otra parte, los reinicios aleatorios no pueden utilizarse, porque el agente no puede 
moverse a un nuevo estado. 

camino aleatorio En vez de reinicios aleatorios, podemos considerar el uso de un camino aleatorio 

para explorar el entorno. Un camino aleatorio selecciona simplemente al azar una de las 
acciones disponibles del estado actual; se puede dar preferencia a las acciones que to- 
davia no se han intentado. Es fâcil probar que un camino aleatorio encontrarâ al final 
un objetivo o termina su exploracion, a condicion de que el espacio sea finito 15 . Por otra 
parte, el proceso puede ser muy lento. La Figura 4.21 muestra un entorno en el que un 



15 El caso infinito es mucho mâs diflcil. jLos caminos aleatorios son completos en rejillas unidimensiona- 
les y de dos dimensiones infinitas, pero no en rejillas tridimensionales! En el ültimo caso, la probabilidad de 
que el camino vuelva siempre al punto de partida es alrededor de 0,3405 (véase a Hughes, 1995, para una 
introducciôn general). 
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camino aleatorio utilizarâ un nümero exponencial de pasos para encontrar el objetivo, 
porque, en cada paso, el progreso hacia atrâs es dos veces mas probable que el progre- 
so hacia delante. El ejemplo es artificial, por supuesto, pero hay muchos espacios de es- 
tados del mundo real cuya topologia causa estas clases de «trampas» para los caminos 
aleatorios. 

Aumentar a la ascension de colinas con memoria mas que aleatoriedad, résulta ser 
una aproximaciôn mas eficaz. La idea bâsica es almacenar una «mejor estimaciôn ac- 
tual» H (s) del coste para alcanzar el objetivo desde cada estado que se ha visitado. El 
comienzo de H(s) es justo la estimaciôn heurfstica h(s) y se actualiza mientras que el agen¬ 
te gana experiencia en el espacio de estados. La Figura 4.22 muestra un ejemplo senci- 
llo en un espacio de estados unidimensional. En (a), el agente parece estar estancado en 
un minimo local piano en el estado sombreado. Mas que permanecer donde esta, el agen¬ 
te debe seguir por donde parece ser la mejor trayectoria al objetivo, basada en las esti- 
maciones de los costes actuales para sus vecinos. El coste estimado para alcanzar el 
objetivo a través de un vecino s' es el coste para conseguir s' mas el coste estimado para 
conseguir un objetivo desde ahi, es decir, c(s, a, 5 ') + H(s'). En el ejemplo, hay dos ac- 
ciones con costos estimados 1 + 9 y 1 + 2, asi parece que lo mejor posible es mover- 
se a la derecha. Ahora, esta claro que la estimaciôn del costo de dos para el estado 
sombreado fue demasiado optimista. Puesto que el mejor movimiento costo uno y con- 
dujo a un estado que esta al menos a dos pasos de un objetivo, el estado sombreado debe 
estar por lo menos a très pasos de un objetivo, asi que su H debe actualizarse adecua- 
damente, como se muestra en la figura 4.22(b). Continuando este proceso, el agente se 
moverâ hacia delante y hacia atrâs dos veces mas, actualizando H cada vez y «apartan- 
do» el minimo local hasta que se escapa a la derecha. 










































144 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


AA'TR 


OPTIMISMO BAJO 
INCERTIDUMBRE 


En la Figura 4.23 se muestra un agente que implémenta este esquema, llamado 
aprendiendo A* en tiempo real (AA*TR). Como el Agente-BPP-Online, éste construye 
un mapa del entorno usando la tabla resultado. Actualiza el costo estimado para el es- 
tado que acaba de dejar y entonces escoge el movimiento «aparentemente mejor» segün 
sus costos estimados actuales. Un detalle importante es que las acciones que todavfa no 
se han intentado en un estado 5 siempre se supone que dirigen inmediatamente al obje- 
tivo con el costo menor posible, h(s). Este optimismo bajo la incertidumbre anima al 
agente a explorar nuevos y posiblemente caminos prometedores. 


funciôn Agente- AA*TR(P) devuelve una accion 

entradas: s' , una percepciôn que identifica el estado actual 

estâtico: resultado, una tabla, indexada por la accion y el estado, inicialmente vacia 
H, una tabla de costos estimados indexada por estado, inicialmente vacia 
s, a, el estado y accion previa, inicialmente nula 

si Test-Objetivo(s') entonces devolver parar 
si s' es un nuevo estado (no en H) entonces H\s'] <— h(s') 
a menos que s sea nulo 
resultado[a, s] <— s' 

//[s] <— min Costo-AA*TR(s, b, resultado[b, s],H) 

b e Acciones^) 

a <— una accion b de Acciones(P ) que minimiza Costo- AA*TR(P, b, resultado[b, s'],H) 
s <r- s' 

devolver a 

funciôn Costo- AA*TR(.ç, a, s'. H) devuelve un costo estimado 
si Pesta indefinido entonces devolver h(s) 
en otro caso devolver c(s, a, .?') + //|.v' | 


Figura 4.23 El Agente-AA*TR escoge una accion segün los valûtes de los estados vecinos, que 
se actualizan conforme el agente se mueve sobre el espacio de estados. 


Un agente AA*TR garantiza encontrar un objetivo en un entorno seguramente ex¬ 
plorable y finito. A diferencia de A*, sin embargo, no es completo para espacios de es¬ 
tados infinitos (hay casos donde se puede dirigir infinitamente por mal camino). Puede 
explorar un entorno de n estados en O(tr) pasos, en el caso peor, pero a menudo lo hace 
mejor. El agente AA*TR es solo uno de una gran familia de agentes online que pueden 
definirse especificando la régla de la selecciôn de la accion y que actualiza la régla de 
maneras diferentes. Discutiremos esta familia, que fue desarrollada originalmente para 
entornos estocâsticos, en el Capitulo 21. 

Aprendizaje en la büsqueda en lfnea ( online ) 

La ignorancia inicial de los agentes de büsqueda online proporciona varias oportunida- 
des para aprender. Primera, los agentes aprenden un «mapa» del entorno (mas precisa- 
mente, el resultado de cada accion en cada estado) simplemente registrando cada una de 
sus experiencias (notemos que la suposiciôn de entomos deterministas quiere decir que 
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una experiencia es suficiente para cada action). Segundo, los agentes de büsqueda lo¬ 
cales adquieren estimaciones mas exactas del valor de cada estado utilizando las réglas 
de actualizaciôn local, como en AA* *TR. En el Capitulo 21 veremos que éstas actuali- 
zaciones convergen finalmente a valores exactos para cada estado, con tal de que el agen¬ 
te explore el espacio de estados de manera correcta. Una vez que se conocen los valores 
exactos, se pueden tomar las decisiones optimas simplemente moviéndose al sucesor con 
el valor mas alto (es decir, la ascension de colinas pura es enfonces una estrategia opti- 
ma). 

Si usted siguio nuestra sugerencia de comprobar el comportamiento del Agente-BPP- 
Online en el entomo de la Figura 4.18, habrâ advertido que el agente no es muy bri¬ 
llante. Por ejemplo, después de ver que la action Arriba va de (1,1) a (1,2), el agente no 
tiene la menor idea todavia que la action Abajo vuelve a (1,1), o que la action Arriba 
va también de (2,1) a (2,2), de (2,2) a (2,3), etcétera. En general, nos gustarfa que el agen¬ 
te aprendiera que Arriba aumenta la coordenada y a menos que haya una pared en el ca- 
mino, que hacia Abajo la reduce, etcétera. Para que esto suceda, necesitamos dos cosas: 
primero, necesitamos una représentation formai y explicitamente manipulable para es¬ 
tas clases de réglas generales; hasta ahora, hemos escondido la information dentro de 
la caja negra llamada funcion sucesor. La Parte III esta dedicada a este tema. Segundo, 
necesitamos algoritmos que puedan construir réglas generales adecuadas a partir de la 
observation espetifica hecha por el agente. Estos algoritmos se tratan en el Capitulo 18. 


4.6 Resumen 


Este capitulo ha examinado la aplicacion de heuristicas para reducir los costos de la büs¬ 
queda. Hemos mirado varios algoritmos que utilizan heuristicas y encontramos que la 
optimalidad tiene un precio excesivo en términos del costo de büsqueda, aün con heu¬ 
risticas buenas. 

• Büsqueda primero el mejor es una Büsqueda-Grafo donde los nodos no ex- 
pandidos de costo minimo (segün alguna medida) se escogen para la expansion. 
Los algoritmos primero el mejor utilizan tipicamente una funcion heuristica h(n) 
que estima el costo de una solution desde n. 

• Büsqueda primero el mejor avara expande nodos con h(n) mrnima. No es ôpti- 
ma, pero es a menudo eficiente. 

• Büsqueda A* expande nodos con minimo/(/?) = g (h) -F /;(/?). A* es compléta y 
ôptima, con tal que garanticemos que h(n) sea admisible (para Büsqueda-Arbol) 
o consistente (para Büsqueda-Grafo). La complejidad en espacio de A* es todavia 
prohibitiva. 

• El rendimiento de los algoritmos de büsqueda heuristica dépende de la calidad de 
la funcion heuristica. Las heuristicas buenas pueden construirse a veces relajando 
la définition del problema, por costos de solution precalculados para sub-proble- 
mas en un modelo de bases de datos, o aprendiendo de la experiencia con clases 
de problemas. 
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• BRPM y A*MS son algoritmos de büsqueda robustos y optimos que utilizan can- 
tidades limitadas de memoria; con suficiente tiempo, pueden resolver los proble- 
mas que A* no puede resolver porque se queda sin memoria. 

• Los métodos de büsqueda local, como la ascension de colinas, operan en for- 
mulaciones complétas de estados, manteniendo solo un nümero pequeno de no- 
dos en memoria. Se han desarrollado varios algoritmos estocâsticos, inclusive el 
temple simulado, que devuelven soluciones optimas cuando se da un apropiado 
programa de enfriamiento. Muchos métodos de büsqueda local se pueden utilizar 
también para resolver problemas en espacios continuos. 

• Un algoritmo genético es una büsqueda de ascension de colinas estocâstica en la 
que se mantiene una poblacion grande de estados. Los estados nuevos se generan 
por mutation y por cruce, combinando pares de estados de la poblacion. 

• Los problemas de exploraciôn surgen cuando el agente no tiene la menor idea 
acerca de los estados y acciones de su entomo. Para entornos seguramente explo¬ 
rables, los agentes de büsqueda en linea pueden construir un mapa y encontrar 
un objetivo si existe. Las estimaciones de las heuristica, que se actualizan por la 
experiencia, proporcionan un método efectivo para escapar de mmimos locales. 



Notas bibliogrâficas e histôricas 

El uso de informacion heuristica en la resolucion de problemas aparece en un articulo 
de Simon y Newell (1958), pero la frase «büsqueda heuristica» y el uso de las funcio- 
nes heuristicas que estiman la distancia al objetivo llegaron algo mas tarde (Newell y 
Ernst, 1965; Lin, 1965). Doran y Michie (1966) dirigieron muchos estudios experi¬ 
mentales de büsqueda heuristica aplicados a varios problemas, especialmente al 8-puz- 
le y 15-puzle. Aunque Doran y Michie llevaran a cabo un anâlisis teorico de la longitud 
del camino y «penetrancia» (proporcion entre la longitud del camino y el nümero total 
de nodos examinados hasta el momento) en la büsqueda heuristica, parecen haber ig- 
norado la informacion proporcionada por la longitud actual del camino. El algoritmo A*, 
incorporando la longitud actual del camino en la büsqueda heuristica, fue desarrollado 
por Hart, Nilsson y Raphaël (1968), con algunas correcciones posteriores (Hart et al., 
1972). Dechter y Pearl (1985) demostraron la eficiencia optima de A*. 

El articulo original de A* introdujo la condicion de consistencia en funciones heu¬ 
risticas. La condicion de monotoma fue introducida por Pohl (1977) como un sustituto 
mas sencillo, pero Pearl (1984) demostro que las dos eran équivalentes. Varios algorit¬ 
mos precedentes de A* utilizaron el équivalente de listas abiertas y cerradas; éstos incluyen 
la büsqueda primero en anchura, primero en profundidad, y costo uniforme (Bellman, 
1957; Dijkstra, 1959). El trabajo de Bellman en particular mostrô la importancia de ana- 
dir los costos de los caminos para simplificar los algoritmos de optimizacion. 

Pohl (1970, 1977) fue el pionero en el estudio de la relacion entre el error en las fun¬ 
ciones heuristicas y la complejidad en tiempo de A*. La demostracion de que A* se eje- 
cuta en un tiempo lineal si el error de la funciôn heuristica esta acotado por una constante 
puede encontrarse en Pohl (1977) y en Gaschnig (1979). Pearl (1984) reforzo este re- 
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sultado para permitir un crecimiento logarftmico en el error. El «factor de ramificaciôn 
eficaz», medida de la eficiencia de la büsqueda heuristica, fue propuesto por Nilsson 
(1971). 

Hay muchas variaciones del algoritmo A*. Pohl (1973) propuso el uso del ponde- 
rado dinâmico, el cual utiliza una suma pondcrada /' iv (») = w g g(n) + w h h(n) de la lon- 
gitud del camino actual y de la funcion heuristica como una funcion de evaluaciôn, mas 
que la suma sencilla/(«) = g{n) + h(n) que utilizô A*. Los pesos vu y w h se ajustan di- 
nâmicamente con el progreso de la büsqueda. Se puede demostrar que el algoritmo de 
Pohl es e-admisible (es decir, garantiza encontrar las soluciones dentro de un factor 1 + e 
de la soluciôn ôptima) donde e es un paramétra suministrado al algoritmo. La misma 
propiedad es exhibida por el algoritmo A* (Pearl, 1984), el cual puede escoger cual- 
quier nodo de la franja tal que su/-costo esté dentro de un factor 1 + e del nodo de la 
franja de/-costo mas pequeno. La selecciôn se puede hacer para minimizar el costo de 
la büsqueda. 

A* y otros algoritmos de büsqueda en espacio de estados estân estrechamente rela- 
cionados con las técnicas de ramificar-y-acotar ampliamente utilizadas en investigacion 
operativa (Lawler y Wood, 1966). Las relaciones entre la büsqueda en espacio de esta¬ 
dos y ramificar-y-acotar se han investigado en profundidad (Kumar y Kanal, 1983; Nau 
et al., 1984; Kumas et al., 1988). Martelli y Montanari (1978) demostraron una cone- 
xiôn entre la programaciôn dinâmica (véase el Capitulo 17) y cierto tipo de büsqueda 
en espacio de estados. Kumar y Kanal (1988) intentan una «ambiciosa unificaciôn» de 
la büsqueda heuristica, programaciôn dinâmica, y técnicas de ramifica-y-acotar bajo el 
nombre de PDC (el «proceso de decision compuesto»), 

Como los computadores a finales de los anos 1950 y principios de los anos 1960 te- 
nian como mâximo unas miles de palabras de memoria principal, la büsqueda heuristi¬ 
ca con memoria-acotada fue un tema de investigacion. El Grafo Atravesado (Doran y 
Michie, 1966), uno de los programas de büsqueda mas antiguos, compromete a un ope- 
rador después de realizar una büsqueda primera el mejor hasta el limite de memoria. A*PI 
(Korf, 1985a, 1985b) fue el primera que uso un algoritmo de büsqueda heuristica, ôpti¬ 
ma, con memoria-acotada y de la que se han desarrollado un nümero grande de varian¬ 
tes. Un anâlisis de la eficiencia de A*PI y de sus dificultades con las heuristica 
real-valoradas aparece en Patrick et al. (1992). 

El BRPM (Korf, 1991, 1993) es realmente algo mas complicado que el algoritmo 
mostrado en la Ligura 4.5, el cual esta mas cercano a un algoritmo, desarrollado inde- 
extensiôn iterativa pendientemente, llamado extension iterativa, o El (Russell, 1992). BRPM usa una cota 
inferior y una cota superior; los dos algoritmos se comportan idénticamente con heu- 
risticas admisibles, pero BRPM expande nodos en orden primera el mejor hasta con una 
heuristica inadmisible. La idea de guardar la pista del mejor camino alternativo apare- 
ciô en la implementaciôn elegante, en Prolog, de A* realizada por Bratko (1986) y en 
el algoritmo DTA* (Russell y Wefald, 1991). El trabajo posterior también hablô de es- 
pacios de estado meta nivel y aprendizaje meta nivel. 

El algoritmo A*M apareciô en Chakrabarti et al. (1989). A*MS, o A*M simplifi- 
cado, surgiô de una tentativa de implementaciôn de A*M como un algoritmo de com- 
paraciôn para IE (Russell, 1992). Kaindl y Khorsand (1994) han aplicado A*MS para 
producir un algoritmo de büsqueda bidireccional considerablemente mas râpido que los 
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algoritmos anteriores. Korf y Zhang (2000) describen una aproximaciôn divide-y-ven- 
cerâs, y Zhou y Hansen (2002) introducen una büsqueda A* en un grafo de memoria- 
acotada. Korf (1995) révisa las técnicas de büsqueda de memoria-acotada. 

La idea de que las heuristicas admisibles pueden obtenerse por relajaciôn del pro- 
blema aparece en el trabajo séminal de Held y Karp (1970), quien utilizô la heuristica 
del mmimo-atravesando el ârbol para resolver el PVC (véase el Ejercicio 4.8). 

La automatizaciôn del proceso de relajaciôn fue implementado con éxito por Prie- 
ditis (1993), construido sobre el trabajo previo de Mostow (Mostow y Prieditis, 1989). 
El uso del modelo de bases de datos para obtener heuristicas admisibles se debe a Gas- 
ser (1995) y Culberson y Schaeffer (1998); el modelo de bases de datos disjuntas esta 
descrito por Korf y Felner (2002). La interpretaciôn probabilistica de las heuristica fue 
investigada en profundidad por Pearl (1984) y Hansson y Mayer (1989). 

La fuente bibliogrâfica mas comprensiva sobre heuristicas y algoritmos de büsque¬ 
da heurfsticos esta en el texto Heuristics de Pearl (1984). Este libro cubre de una ma- 
nera especialmente buena la gran variedad de ramificaciones y variaciones de A*, 
incluyendo demostraciones rigurosas de sus propiedades formales. Kanal y Kumar 
(1988) presentan una antologia de articulos importantes sobre la büsqueda heuristica. Los 
nuevos resultados sobre algoritmos de büsqueda aparecen con regularidad en la revista 
Artificial Intelligence. 

Las técnicas locales de büsqueda tienen una larga historia en matemâticas y en in- 
formâtica. En efecto, el método de Newton-Raphson (Newton, 1671; Raphson, 1690) 
puede verse como un método de büsqueda local muy eficiente para espacios continuos 
en los cuales esta disponible la informaciôn del gradiente. Brent (1973) es una referen- 
cia clâsica para algoritmos de optimizaciôn que no requieren tal informaciôn. La büs¬ 
queda de haz, que hemos presentado como un algoritmo de büsqueda local, se originô 
como una variante de anchura-acotada de la programaciôn dinâmica para el reconoci- 
miento de la voz en el sistema HARPY (Lowerre, 1976). En Pearl (1984, el Capitulo 5) 
se analiza en profundidad un algoritmo relacionado. 

El tema de la büsqueda local se ha fortalecido en los ültimos anos por los resultados 
sorprendentemente buenos en problemas de satisfacciôn de grandes restricciones como 
las / 2 -reinas (Minton et al., 1992) y de razonamiento lôgico (Selman et al., 1992) y por 
la incorporaciôn de aleatoriedad, mültiples büsquedas simultâneas, y otras mejoras. Este 
renacimiento, de lo que Christos Papadimitriou ha llamado algoritmos de la «Nueva 
Era», ha provocado también el interés entre los informâticos teôricos (Koutsoupias y Pa¬ 
padimitriou, 1992; Aldous y Vazirani, 1994). En el campo de la investigaciôn operativa, 
una variante de la ascension de colinas, llamada büsqueda tabû, ha ganado popularidad 
(Glover, 1989; Glover y Laguna, 1997). Realizado sobre modelos de memoria limitada 
a corto plazo de los humanos, este algoritmo mantienen una lista tabü de k estados, pre- 
viamente visitados, que no pueden visitarse de nuevo; asi se mejora la eficiencia cuando 
se busca en grafos y ademâs puede permitir que el algoritmo se escape de algunos mini- 
mos locales. Otra mejora ütil sobre la ascension de colinas es el algoritmo de STAGE (Bo- 
yan y Moore, 1998). La idea es usar los mâximos locales encontrados por la ascension 
de colinas de reinicio aleatorio para conseguir una idea de la forma total del paisaje. El 
algoritmo adapta una superficie suave al conjunto de mâximos locales y luego calcula ana- 
lfticamente el mâximo global de esa superficie. Este se convierte en el nuevo punto de 
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reinicio. Se ha demostrado que este algoritmo trabaja, en la prâctica, sobre problemas di- 
fïciles. (Gomes et al., 1998) mostraron que las distribuciones, en tiempo de ejecucion, de 
los algoritmos de vuelta atrâs sistemâticos a menudo tienen una distribuciôn de cola pe- 
sada, la cual significa que la probabilidad de un tiempo de ejecucion muy largo es ma- 
yor que lo que séria predicho si los tiempos de ejecucion fueran normalmente distribuidos. 
Esto proporciona una justificaciôn teôrica para los reinicios aleatorios. 

El temple simulado fue inicialmente descrito por Kirkpatrick et al. (1983), el cual 
se basé directamente en el algoritmo de Metrôpolis (usado para simular sistemas com- 
plejos en la fisica (Metrôpolis et al., 1953) y fue supuestamente inventado en la cena Los 
Alamos). El temple simulado es ahora un campo en si mismo, con cien trabajos publi- 
cados cada ano. 

Encontrar soluciones ôptimas en espacios continuos es la materia de varios campos, 
incluyendo la teoria de optiniizaciôn, teoria de control ôptima, y el câlculo de va- 
riaciones. Los convenientes (y prâcticos) puntos de entrada son proporcionados por Press 
et al. (2002) y Bishop (1995). La programaciôn lineal (PL) fue una de las primeras apli- 
caciones de computadores; el algoritmo simplex (Wood y Dantzig, 1949; Dantzig, 
1949) todavia se utiliza a pesar de la complejidad exponencial, en el peor caso. Karmarkar 
(1984) desarrollô un algoritmo de tiempo polinomial prâctico para PL. 

El trabajo de Sewal Wright (1931), sobre el concepto de la idoneidad de un paisa- 
je, fue un precursor importante para el desarrollo de los algoritmos genéticos. En los anos 
50, varios estadisticos, incluyendo Box (1957) y Eriedman (1959), usaron técnicas evo- 
lutivas para problemas de optimizaciôn, pero no fue hasta que Rechenberg (1965, 1973) 
introdujera las estrategias de evoluciôn para resolver problemas de optimizaciôn para 
pianos aerodinâmicos en la que esta aproximaciôn ganô popularidad. En los anos 60 y 
70, John Holland (1975) defendiô los algoritmos genéticos, como un instrumento ütil y 
como un método para ampliar nuestra comprensiôn de la adaptaciôn, biolôgica o de otra 
forma (Holland, 1995). El movimiento de vida artificial (Langton, 1995) lleva esta idea 
un poco mas lejos, viendo los productos de los algoritmos genéticos como organismos 
mas que como soluciones de problemas. El trabajo de Hinton y Nowlan (1987) y Ac- 
kley y Littman (1991) en este campo ha hecho mucho para clarificar las implicaciones 
del efecto de Baldwin. Para un tratamiento mas a fondo y general sobre la evoluciôn, 
recomendamos a Smith y Szathmâry (1999). 

La mayor parte de comparaciones de los algoritmos genéticos con otras aproxima- 
ciones (especialmente ascension de colinas estocâstica) han encontrado que los algorit¬ 
mos genéticos son mas lentos en converger (O’Reilly y Oppacher, 1994; Mitchell et al., 
1996; Juels y Wattemberg, 1996; Baluja, 1997). Taies conclusiones no son universalmente 
populares dentro de la comunidad de AG, pero tentativas recientes dentro de esa comu- 
nidad, para entender la büsqueda basada en la poblaciôn como una forma aproximada 
de aprendizaje Bayesiano (véase el Capitulo 20), quizâs ayude a cerrar el hueco entre el 
campo y sus criticas (Pelikan et al., 1999). La teoria de sistemas dinâmicos cuadrâti- 
cos puede explicar también el funcionamiento de AGs (Rabani et al., 1998). Véase 
Lohn et al. (2001) para un ejemplo de AGs aplicado al diseno de antenas, y Larranaga 
et al. (1999) para una aplicaciôn al problema de viajante de comercio. 

El campo de la programaciôn genética esta estrechamente relacionado con los al¬ 
goritmos genéticos. La diferencia principal es que las representaciones, que son muta- 






150 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


GRAFOS EULERIANOS 


BÜSQUEDA EN 
TIEMPO REAL 


das y combinadas, son programas mas que cadenas de bits. Los programas se represen- 
tan en forma de ârboles de expresiôn; las expresiones pueden estar en un lenguaje es- 
tândar como Lisp o pueden estar especialmente disenadas para representar circuitos, 
controladores del robot, etcétera. Los cruces implican unir los subârboles mas que las 
subcadenas. De esta forma, la mutaciôn garantiza que los descendientes son expresio¬ 
nes gramaticalmente correctas, que no lo serfan si los programas fueran manipulados 
como cadenas. 

El interés reciente en la programacion genética fue estimulado por el trabajo de John 
Koza (Koza, 1992, 1994), pero va por detrâs de los experimentos con côdigo mâquina 
de Friedberg (1958) y con autômatas de estado finito de Fogel et al. (1966). Como con 
los algoritmos genéticos, hay un debate sobre la eficacia de la técnica. Koza et al. (1999) 
describen una variedad de experimentos sobre el diseno automatizado de circuitos de dis- 
positivos utilizando la programacion genética. 

Las revistas Evolutionary Computation y IEEE Transactions on Evolutionary Com¬ 
putation cubren los algoritmos genéticos y la programacion genética; también se en- 
cuentran articulos en Complex Systems, Adaptative Behavior, y Artificial Life. Las 
conferencias principales son la International Conférence on Genetic Algorithms y la Con¬ 
férence on Genetic Programming, recientemente unidas para formar la Genetic and 
Evolutionary Computation Conférence. Los textos de Melanie Mitchell (1996) y David 
Fogel (2000) dan descripciones buenas del campo. 

Los algoritmos para explorar espacios de estados desconocidos han sido de interés 
durante muchos siglos. La büsqueda primera en profundidad en un laberinto puede im- 
plementarse manteniendo la mano izquierda sobre la pared; los bucles pueden evitarse 
marcando cada union. La büsqueda primera en profundidad falla con acciones irréver¬ 
sibles; el problema mas general de exploracion de grafos Eulerianos (es decir, grafos 
en los cuales cada nodo tiene un nümero igual de arcos entrantes y salientes) fue resuelto 
por un algoritmo debido a Hierholzer (1873). El primer estudio cuidadoso algoritmico 
del problema de exploracion para grafos arbitrarios fue realizado por Deng y Papadi¬ 
mitriou (1990), quienes desarrollaron un algoritmo completamente general, pero de- 
mostraron que no era posible una proporcion competitiva acotada para explorar un grafo 
general. Papadimitriou y Yannakakis (1991) examinaron la cuestiôn de encontrar cami- 
nos a un objetivo en entornos geométricos de planificaciôn de caminos (donde todas las 
acciones son réversibles). Ellos demostraron que es alcanzable una pequena proporcion 
competitiva con obstâculos cuadrados, pero no se puede conseguir una proporcion aco¬ 
tada con obstâculos generales rectangulares (véase la Figura 4.19). 

El algoritmo LRTA* fue desarrollado por Korf (1990) como parte de una investiga- 
ciôn en la büsqueda en tiempo real para entornos en los cuales el agente debe actuar 
después de buscar en solo una cantidad fija del tiempo (una situaciôn mucho mas co- 
mün en juegos de dos jugadores). El LRTA* es, de hecho, un caso especial de algorit¬ 
mos de aprendizaje por refuerzo para entornos estocâsticos (Barto et al., 1995). Su 
polftica de optimismo bajo incertidumbre (siempre se dirige al estado no visitado mas 
cercano) puede causar un modelo de exploracion que es menos eficiente, en el caso sin 
informaciôn, que la büsqueda primera en profundidad simple (Koening, 2000). Dasgupta 
et al. (1994) mostraron que la büsqueda en profundidad iterativa online es ôptimamen- 
te eficiente para encontrar un objetivo en un ârbol uniforme sin la informaciôn heuris- 
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tica. Algunas variantes informadas sobre el tema LRTA* se han desarrollado con méto- 
dos diferentes para buscar y actualizar dentro de la parte conocida del grafo (Pember- 
ton y Korf, 1992). Todavfa no hay una buena comprensiôn de cômo encontrar los 
objetivos con eficiencia optima cuando se usa informaciôn heuristica. 
büsqueda paralela El tema de los algoritmos de busqueda paralela no se ha tratado en el capftulo, en 

parte porque requiere una discusiôn larga de arquitecturas paralelas de computadores. 
La büsqueda paralela llega a ser un tema importante en IA y en informâtica teôrica. Una 
introducciôn breve a la literatura de IA se puede encontrar en Mahanti y Daniels 
(1993). 



EJERCICIOS 

4.1 Trace cômo opéra la büsqueda A* aplicada al problema de alcanzar Bucarest des- 
de Lugoj utilizando la heuristica distancia en lfnea recta. Es decir, muestre la secuencia 
de nodos que considerarâ el algoritmo y los valores/, g, y h para cada nodo. 

4.2 El algoritmo de camino heuristico es una büsqueda primero el mejor en la cual 
la funcion objetivo es f{n) = (2 — w)g{n) + wh(n). /Para qué valores del w esta garan- 
tizado que el algoritmo sea ôptimo? /Que tipo de büsqueda realiza cuando w — 01, / cuan¬ 
do w = 1? y /cuando w = 21 



4.3 Demuestre cada una de las declaraciones siguientes: 

a) La büsqueda primero en anchura es un caso especial de la büsqueda de coste 
uniforme. 

b ) La büsqueda primero en anchura, büsqueda primero en profundidad, y la büs¬ 
queda de coste uniforme son casos especiales de la büsqueda primero el mejor. 

c ) La büsqueda de coste uniforme es un caso especial de la büsqueda A*. 

4.4 Idee un espacio de estados en el cual A*, utilizando la Btjsqueda-Grafo, devuel- 
va una soluciôn sub-ôptima con una funcion h(n) admisible pero inconsistente. 

4.5 Vimos en la pagina 109 que la heuristica de distancia en lfnea recta dirige la büs¬ 
queda primero el mejor voraz por mal camino en el problema de ir de Iasi a Lagaras. Sin 
embargo, la heuristica es perfecta en el problema opuesto: ir de Lagaras a Iasi. / Hay pro- 
blemas para los cuales la heuristica engana en ambas direcciones? 

4.6 Invente una funcion heuristica para el 8-puzle que a veces sobrestime, y muestre 
cômo puede conducir a una soluciôn subôptima sobre un problema particular (puede 
utilizar un computador para ayudarse). Demuestre que, si h nunca sobrestima en mas 
de c, A*, usando h, devuelve una soluciôn cuyo coste excede de la soluciôn optima en 
no mas de c. 



4.7 Demuestre que si una heuristica es consistente, debe ser admisible. Constmya una 
heuristica admisible que no sea consistente. 

4.8 El problema del viajante de comercio (PVC) puede resolverse con la heuristica 
del ârbol mfnimo (AM), utilizado para estimar el coste de complétai - un viaje, dado 
que ya se ha construido un viaje parcial. El coste de AM del conjunto de ciudades es 
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la suma mas pequena de los costos de los arcos de cualquier ârbol que une todas las 
ciudades. 

a) Muestre como puede obtenerse esta heuristica a partir de una version relajada 
del PVC. 

b) Muestre que la heuristica AM domina la distancia en linea recta. 

c) Escriba un generador de problemas para ejemplos del PVC donde las ciudades 
estân representadas por puntos aleatorios en el cuadrado unidad. 

d) Encuentre un algoritmo eficiente en la literatura para construir el AM, y üselo 
con un algoritmo de büsqueda admisible para resolver los ejemplos del PVC. 

4.9 En la pagina 122, definimos la relajacion del 8-puzle en el cual una ficha podia mo- 
verse del cuadrado A al cuadrado B si B era el blanco. La soluciôn exacta de este pro- 
blema define la heuristica de Gaschnig (Gaschnig, 1979). Explique por qué la heuristica 
de Gaschnig es al menos tan exacta como h ] (fichas mal colocadas), y muestre casos don¬ 
de es mas exacta que h x y que h 2 (distancia de Manhattan). /Puede sugerir un modo de 
calcular la heuristica de Gaschnig de manera eficiente? 

4.10 Dimos dos heuristicas sencillas para el 8-puzle: distancia de Manhattan y fichas 
mal colocadas. Varias heuristicas en la literatura pretendieron mejorarlas, véase, por ejem- 
plo, Nilsson (1971), Mostow y Prieditis (1989), y Hansson et al. (1992). Pruebe estas 
mejoras, implementando las heuristicas y comparando el funcionamiento de los algo- 
ritmos que resultan. 

4.11 Dé el nombre del algoritmo que résulta de cada uno de los casos siguientes: 

a) Büsqueda de haz local con k = 1. 

b) Büsqueda de haz local con k = °°. 

c ) Temple simulado con T = 0 en cualquier momento. 

d) Algoritmo genético con tamano de la poblacion N = 1. 

4.12 A veces no hay una funcion de evaluaciôn buena para un problema, pero hay un 
método de comparacion bueno: un modo de decir si un nodo es mejor que el otro, sin 
adjudicar valores numéricos. Muestre que esto es suficiente para hacer una büsqueda pri¬ 
mera el mejor. / Hay un anâlogo de A*? 

4.13 Relacione la complejidad en tiempo de LRTA* con su complejidad en espacio. 

4.14 Suponga que un agente esta en un laberinto de 3x3 como el de la Figura 4.18. El 

agente sabe que su posicion inicial es (1,1), que el objetivo esta en (3,3), y que las cua- 

tro acciones Arriba, Abajo, Izquierda, Derecha tienen sus efectos habituales a menos que 
estén bloqueadas por una pared. El agente no sabe donde estân las paredes internas. En 
cualquier estado, el agente percibe el conjunto de acciones legales; puede saber también 
si el estado ha sido visitado antes o si es un nuevo estado. 

a) Explique como este problema de büsqueda online puede verse como una büs¬ 
queda offline en el espacio de estados de creencia, donde el estado de creencia 
inicial incluye todas las posibles configuraciones del entorno. /Como de gran¬ 
de es el estado de creencia inicial? /Como de grande es el espacio de estados 
de creencia? 

b) /C u an tas percepciones distintas son posibles en el estado inicial? 


BÜSQUEDA INFORMADA Y EXPLORACIÔN 153 






c) Describa las primeras ramas de un plan de contingencia para este problema. 
/Como de grande (aproximadamente) es el plan completo? 

Notese que este plan de contingencia es una solucion para todos los entornos posibles 
que encajan con la descripcion dada. Por lo tanto, intercalar la büsqueda y la ejecucion 
no es estrictamente necesario hasta en entornos desconocidos. 

4.15 En este ejercicio, exploraremos el uso de los métodos de büsqueda local para re- 
solver los PVCs del tipo definido en el Ejercicio 4.8. 

a) Idee una aproximacion de la ascension de colinas para resolver los PVSs. Com¬ 
pare los resultados con soluciones optimas obtenidas con el algoritmo A* con 
la heuristica AM (Ejercicio 4.8). 

b) Idee una aproximacion del algoritmo genético al problema del viajante de co- 
mercio. Compare los resultados a las otras aproximaciones. Puede consultar La- 
rranaga et al. (1999) para algunas sugerencias sobre las representaciones. 

4.16 Genere un nümero grande de ejemplos del 8-puzle y de las 8-reinas y resuélva- 
los (donde sea posible) por la ascension de colinas (variantes de subida mas escarpada 
y de la primera opcion), ascension de colinas con reinicio aleatorio, y temple simulado. 
Mida el coste de büsqueda y el porcentaje de problemas resueltos y représente éstos grâ- 
ficamente contra el costo optimo de solucion. Comente sus resultados. 

4.17 En este ejercicio, examinaremos la ascension de colinas en el contexto de nave- 
gacion de un robot, usando el entorno de la Figura 3.22 como un ejemplo. 

a) Repita el Ejercicio 3.16 utilizando la ascension de colinas. /Cac alguna vez su 
agente en un mmimo local? / ; Es posible con obstâculos convexos? 

b) Construya un entorno no convexo poligonal en el cual el agente cae en mmi- 
mos locales. 

c) Modifique el algoritmo de ascension de colinas de modo que, en vez de hacer 
una büsqueda a profundidad 1 para decidir donde ir, haga una büsqueda a pro- 
fundidad-C Deberia encontrar el mejor camino de A-pasos y hacer un paso so¬ 
bre el camino, y luego repetir el proceso. 

d) /Hay algün k para el cual esté garantizado que el nuevo algoritmo se escape de 
mmimos locales? 

e) Explique como LRTA* permite al agente escaparse de mmimos locales en este 
caso. 

4.18 Compare el funcionamiento de A* y BRPM sobre un conjunto de problemas ge- 
nerados aleatoriamente en dominios del 8-puzle (con distancia de Manhattan) y del PVC 
(con AM, véase el Ejercicio 4.8). Discuta sus resultados. / ; Qué le pasa al funcionamiento 
de la BRPM cuando se le anade un pequeno nümero aleatorio a los valores heuristicos 
en el dominio del 8-puzle? 




Problemas 

de satisfacciôn de 

restricciones 


En donde veremos cômo el tratar los estados como mas que solo pequenas cajas negras 
conduce a la invenciôn de una variedad de nuevos poderosos métodos de busqueda 
y a un entendimiento mâs profundo de la estructura y complejidad del problema. 


Los Capitulos 3 y 4 exploraron la idea de que los problemas pueden resolverse buscan- 
do en un espacio de estados. Estos estados pueden evaluarse con heuristicas especifi- 
cas del dominio y probados para ver si son estados objetivo. Desde el punto de vista del 
caja negra algoritmo de büsqueda, sin embargo, cada estado es una caja negra sin la estructura per¬ 

ceptible interna. Se représenta por una estructura de datos arbitraria a la que se puede 
accéder solo con las rutinas especîficas de problema (la funcion sucesor, funcion heu- 
rfstica, y el test objetivo). 

Este capitulo examina problemas de satisfacciôn de restricciones, cuyos estados 
y test objetivo forman una representaciôn muy simple, estândar y estmcturada (Sec- 
ciôn 5.1). Los algoritmos de büsqueda se pueden définir aprovechândose de la estruc¬ 
tura de los estados y utilizan las heuristicas de propôsito general mâs que heuristicas 
especîficas de problema para asi permitir la soluciôn de problemas grandes (Secciones 
5.2-5.3). Quizâ lo mâs importante sea que la representaciôn estândar del test objetivo ré¬ 
véla la estructura del problema (Secciôn 5.4). Esto conduce a métodos de descomposi- 
ciôn de problemas y a una comprensiôn de la conexiôn entre la estructura de un problema 
y la dificultad para resolverlo. 


PROBLEMA DE 
SATISFACCION DE 
RESTRICCIONES 


REPRESENTACION 


5.1 Problemas de satisfacciôn de restricciones 


Formalmente, un problema de satisfacciôn de restricciones (o PSR) esta definido por 
un conjunto de variables, X V X 2 . . X n , y un conjunto de restricciones, C v C 2 ...,C m . Cada 


VARIABLES 

RESTRICCIONES 













156 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


DOMINIO 

VALORES 

ASIGNACIÔN 

CONSISTENTE 

FUNCIÔN OBJETIVO 


GRAFO DE 
RESTRICCIONES 


variable X t tiene un dominio no vacfo D I de valores posibles. Cada restriccion C, implica 
algün subconjunto de variables y especifica las combinaciones aceptables de valores para 
ese subconjunto. Un estado del problema esta definido por una asignaciôn de valores a 
unas o todas las variables, {Àj = v„ Xj = v,..}. A una asignaciôn que no viola ninguna 
restriccion se llama asignaciôn consistente o legal. Una asignaciôn compléta es una asig¬ 
naciôn en la que se menciona cada variable, y una soluciôn de un PSR es una asignaciôn 
compléta que satisface todas las restricciones. Algunos problemas de satisfacciôn de res- 
tricciones (PSRs) también requieren una soluciôn que maximiza una funciôn objetivo. 

/ ; Qué significa todo esto? Suponga que, cansados de Rumanra, miramos un mapa de 
Australia que muestra cada uno de sus estados y territorios, como en la Figura 5.1 (a), y que 
nos encargan la tarea de colorear cada région de rojo, verde o azul de modo que ninguna 
de las regiones vecinas tenga el mismo color. Para formularlo como un PSR, definimos las 
variables de las regiones: AO, TN, Q, NGS, V, AS y T. El dominio de cada variable es el 
conjunto {rojo, verde, azul). Las restricciones requieren que las regiones vecinas tengan 
colores distintos; por ejemplo, las combinaciones aceptables para AO y 77V son los pares 

{(rojo,verde}, (rojo,azul), (verde, rojo), (verde,azul), (azul,rojo), (azul,verde)) 

(La restriccion puede también representarse mas sucintamente como la desigualdad 
AO A 77V, a condiciôn de que el algoritmo de satisfacciôn de restricciones tenga algün 
modo de evaluar taies expresiones.) Hay muchas soluciones posibles, como 

{AO = rojo, TN = verde, Q — rojo, NGS = verde, V = rojo, AS = azul, T = rojo } 

Es bueno visualizar un PSR como un grafo de restricciones, como el que se muestra 
en la Ligura 5.1 (b). Los nodos del grafo corresponden a variables del problema y los ar- 
cos corresponden a restricciones. 

Tratar un problema como un PSR confiere varias ventajas importantes. Como la re- 
presentaciôn del estado en un PSR se ajusta a un modelo estândar (es decir, un conjun¬ 
to de variables con valores asignados) la funciôn sucesor y el test objetivo pueden 
escribirse de un modo genérico para que se aplique a todo PSR. Ademâs, podemos desa- 
rrollar heuristicas eficaces y genéricas que no requieran ninguna informaciôn adicional 
ni experta del dominio especifico. Finalmente, la estructura del grafo de las restriccio¬ 
nes puede usarse para simplificar el proceso de soluciôn, en algunos casos produciendo 
una reducciôn exponencial de la complejidad. La representaciôn PSR es la primera, y 
mas simple, de una sérié de esquemas de representaciôn que serân desarrollados a tra- 
vés de los capitulos del libro. 

Es bastante fâcil ver que a un PSR se le puede dar una formulaciôn incrémental 
como en un problema de büsqueda estândar: 

• Estado inicial: la asignaciôn vacia { ), en la que todas las variables no estân asig- 
nadas. 

• Funciôn de sucesor: un valor se puede asignar a cualquier variable no asignada, 
a condiciôn de que no suponga ningün conflicto con variables antes asignadas. 

• Test objetivo: la asignaciôn actual es compléta. 

• Costo del camino: un coste constante (por ejemplo, 1) para cada paso. 

Cada soluciôn debe ser una asignaciôn compléta y por lo tanto aparecen a profundidad n 
si hay n variables. Ademâs, el ârbol de büsqueda se extiende solo a profundidad n. Por 
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estos motivos, los algoritmos de büsqueda primera en profundidad son populares para 
PSRs. ( Véase la Seccion 5.2.) También el camino que alcanza una solution es irrelevante. 
De ahi, que podemos usar también una formulaciôn compléta de estados, en la cual cada 
estado es una asignaciôn compléta que podria o no satisfacer las restricciones. Los mé- 
todos de büsqueda local trabajan bien para esta formulaciôn. ( Véase la Seccion 5.3.) 

La clase mas simple de PSR implica variables discretas y dominios fînitos. Los pro- 
blemas de coloreo del mapa son de esta clase. El problema de las 8-reinas descrito en el 
Capitulo 3 puede también verse como un PSR con dominio finito, donde las variables 
Q v Q 2 .Q s son las posiciones de cada reina en las columnas 1..., 8 y cada variable tie- 
ne el dominio {1, 2, 3, 4, 5, 6, 7, 8}. Si el tamano mâximo del dominio de cualquier va¬ 
riable, en un PSR, es d, enfonces el nümero de posibles asignaciones complétas es 
0(d n ), es decir, exponencial en el nümero de variables. Los PSR con dominio finito in- 
cluyen a los PSRs booleanos, cuyas variables pueden ser verdaderas o falsas. Los 
PSRs booleanos incluyen como casos especiales algunos problemas NP-completos, 
como 3SAT. (Véase el Capitulo 7.) En el caso peor, por lo tanto, no podemos esperar re- 
solver los PSRs con dominios finitos en menos de un tiempo exponencial. En la mayo- 
rfa de las aplicaciones prâcticas, sin embargo, los algoritmos para PSR de uso general 
pueden resolver problemas de ôrdenes de magnitud mas grande que los resolubles con 
los algoritmos de büsqueda de uso general que vimos en el Capitulo 3. 

Las variables discretas pueden tener también dominios infinitos (por ejemplo, el con- 
junto de nümeros enteras o de cadenas). Por ejemplo, cuando programamos trabajos de 
la construcciôn en un calendario, la fecha de comienzo de cada trabajo es una variable y 
los valores posibles son nümeros enteras de dias desde la fecha actual. Con dominios in- 
finitos, no es posible describir restricciones enumerando todas las combinaciones per- 
mitidas de valores. En cambio, se debe utilizar un lenguaje de restricciôn. Por ejemplo, 
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si Trabajo ,, que utiliza cinco dias, debe précéder a Trabajo 3 , entonces necesitariamos un 
icnguajc de restricciôn de dcsiguaidadcs algcbraicas como ComienzoTrabajo^ + 5 ^ Co- 
mienzo Trabajo y Tampoco es posible resolver taies restricciones enumerando todas las 
asignaciones posibles, porque hay infinitas. Existen algoritmos soluciôn especiales (de 
los que no hablaremos aquf) para restricciones lineales sobre variables enteras (es de- 
cir, restricciones, como la anterior, en la que cada variable aparece de forma lineal). Pue- 
de demostrarse que no existe un algoritmo para resolver restricciones no lineales 
generales sobre variables enteras. En algunos casos, podemos reducir los problemas de 
restricciones enteras a problemas de dominio finito simplemente acotando los valores 
de todas las variables. Por ejemplo, en un problema de programacion, podemos poner 
una cota superior igual a la longitud total de todos los trabajos a programar. 

Los problemas de satisfacciôn de restricciones con dominios continuos son muy co- 
munes en el mundo real y son ampliamente estudiados en el campo de la investigaciôn ope- 
rativa. Por ejemplo, la programacion de expérimentas sobre el Telescopio Hubble requiere 
el cronometraje muy preciso de las observaciones; al comienzo y al final de cada obser- 
vaciôn y la maniobra son variables continuas que deben obedecer a una variedad de res¬ 
tricciones astronômicas, prioritarias y potentes. La categoria mas conocida de PSRs en 
dominios continuos son los problemas de programacion lineal, en donde las restriccio¬ 
nes deben ser desigualdades lineales que forman una région convexa. Los problemas de 
programacion lineal pueden resolverse en tiempo polinomial en el nümero de variables. 
Los problemas con tipos diferentes de restricciones y funciones objetivo también se han 
estudiado: programacion cuadrâtica, programacion cônica de segundo orden, etcétera. 

Ademâs del examen de los tipos de variables que pueden aparecer en los PSRs, es ütil 
ver los tipos de restricciones. El tipo mas simple es la restricciôn unaria, que restringe 
los valores de una sola variable. Por ejemplo, podria ser el caso en los que a los australia- 
nos del Sur les disgustara el color verde. Cada restricciôn unaria puede eliminarse sim¬ 
plemente con el preproceso del dominio de la variable quitando cualquier valor que viole 
la restricciôn. Una restricciôn binaria relaciona dos variables. Por ejemplo, AS A NGS 
es una restricciôn binaria. Un PSR binario es un problema con restricciones solo binarias; 
y puede representarse como un grafo de restricciones, como en la Ligura 5.1 (b). 

Las restricciones de orden alto implican très o mas variables. Un ejemplo familiar 
es el que proporcionan los puzles cripto-aritméticos. ( Véase la Ligura 5.2(a).) Es ha¬ 
bituai insistir que cada letra en un puzle cripto-aritmético représente un digito diferen- 
te. Para el caso de la Ligura 5.2(a), éste séria representado como la restricciôn de seis 
variables TodasDif (F, T, U,W,R, O). O bien, puede representarse por una colecciôn de 
restricciones binarias como F A T. Las restricciones anadidas sobre las cuatro colum- 
nas del puzle también implican varias variables y pueden escribirse como 

O + O =R + 10 -Xj 
X { + W + W = U + 10 ■ X 2 
X 2 + T+T = 0 + 10 • x 3 
*3 = F 

donde X v X 2 , y X, son variables auxiliares que representan el digito (0 o 1) transferi- 
do a la siguiente columna. Las restricciones de orden alto pueden representarse en un 
hiper-grafo de restricciones, como el de la Ligura 5.2(b). El lector habrâ notado que 
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Figura 5.2 (a) Un problema cripto-aritmético. Cada letra significa un dîgito distinto; el objetivo 

es encontrar una sustituciôn de las letras por dîgitos tal que la suma que résulta es aritméticamen- 
te correcta, con la restricciôn anadida de que no se permite la administraciôn de ceros. (b) El hi- 
per-grafo de restricciones para el problema cripto-aritmético muestra la restricciôn TodasDif asi como 
las restricciones anadidas en las columnas. Cada restricciôn es una caja cuadrada relacionada con 
las variables que restringe. 


la restricciôn TodasDif puede dividirse en restricciones binarias (F T T, F T U, etcéte- 
ra). De hecho, como en el Ejercicio 5.11, se pide demostrar que la restricciôn de domi- 
nio finito y orden alto puede reducirse a un conjunto de restricciones binarias si se 
introducen suficientes variables auxiliares. A causa de esto, en este capitulo trataremos 
solo restricciones binarias. 

Las restricciones que hemos descrito hasta ahora han sido todas restricciones abso- 
lutas, la violaciôn de las cuales excluye una soluciôn potencial. Muchos PSRs del mun- 
preferencia do real incluyen restricciones de preferencia que indican qué soluciones son preferidas. 

Por ejemplo, en un problema de horario de la universidad, el profesor X quizâ prefiera 
ensenar por la manana mientras que un profesor Y prefiere ensenar por la tarde. Un ho¬ 
rario que tenga al profesor X ensenando a las dos de la tarde séria una soluciôn (a me- 
nos que el profesor X resuite ser el director del departamento), pero no séria un ôptimo. 
Las restricciones de preferencia pueden a menudo codificarse como costos sobre las asig- 
naciones de variables individuales (por ejemplo, asignar un hueco por la tarde para el 
profesor X cuesta dos puntos contra la funciôn objetivo total, mientras que un hueco de 
manana cuesta uno). Con esta formulaciôn, los PSRs con preferencias pueden resol ver¬ 
se utilizando métodos de büsqueda de optimizaciôn, basados en caminos o locales. No 
hablamos de taies PSRs fuera de este capitulo, pero si proporcionamos algunas lineas 
de trabajo en la secciôn de notas bibliogrâficas. 


5.2 Busqueda con vuelta atrâs para PSR 


La secciôn anterior dio una formulaciôn de PSRs como problemas de büsqueda. Usan- 
do esta formulaciôn, cualquiera de los algoritmos de büsqueda de los Capitulos 3 y 4 
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pueden resolver los PSRs. Suponga que aplicamos la büsqueda primera en anchura a la 
formulacion del PSR genérico de la secciôn anterior. Râpidamente notamos algo terri¬ 
ble: el factor de ramificaciôn en el nivel superior es de nd, porque cualquiera de los d 
valores se puede asignar a cualquiera de las n variables. En el siguiente nivel, el factor 
de ramificaciôn es ( n-l)d , etcétera para los n niveles. jGeneramos un ârbol con n! • d" 
hojas, aunque haya solo d n asignaciones posibles complétas! 

Nuestra formulacion del problema, aparentemente razonable pero ingenua, no ha he- 
cho caso de una propiedad crucial comün en todos los PSRs: la conmutatividad. Un 
problema es conmutativo si el orden de aplicaciôn de cualquier conjunto de acciones no 
tiene ningün efecto sobre el resultado. Este es el caso de los PSRs porque, asignando 
valores a variables, alcanzamos la misma asignaciôn parcial sin tener en cuenta el or¬ 
den. Por lo tanto, todos los algoritmos de büsqueda para el PSR generan los sucesores 
considerando asignaciones posibles para solo una variable en cada nodo del ârbol de 
büsqueda. Por ejemplo, en el nodo raiz de un ârbol de büsqueda para colorear el mapa 
de Australia, podriamos tener una opciôn entre AS = rojo, AS = verde, y AS = azul, pero 
nunca elegirfamos entre AS = rojo y AO = azul. Con esta restricciôn, el nümero de ho¬ 
jas es d", como era de esperar. 

El término büsqueda con vuelta atrâs se utiliza para la büsqueda primera en pro- 
fundidad que elige valores para una variable a la vez y vuelve atrâs cuando una variable 
no tiene ningün valor legal para asignarle. En la Figura 5.3 se muestra este algoritmo. 
Notemos que usa, en efecto, el método uno a la vez de la generaciôn de sucesor incré¬ 
mental descrita en la pâgina 86. También, extiende la asignaciôn actual para generar un 
sucesor, mâs que volver a copiarlo. Como la representaciôn de los PSRs estâ estandar- 
tizada, no hay ninguna necesidad de proporcionar a la Büsqueda-Con-Vuelta-Atras 
un estado inicial del dominio especifico, una funciôn sucesor, o un test del objetivo. En 
la Figura 5.4 se muestra parte del ârbol de büsqueda para el problema de Australia, en 
donde hemos asignado variables en el orden AO, TN, Q... 


funciôn Bûsqueda-Con-Vuelta-Atrâs(/>.w) devuelve una solucion, o fallo 
devolver Vuelta-Atrâs-Recursiva( {j, psr) 

funciôn Vuelta-ATRÂ s-Rr.CLRSiVAta.v/^/iar/o/î, psr) devuelve una solucion, o fallo 
si asignaciôn es compléta entonces devolver asignaciôn 
var <— Selecciona-Variable-Noasignada(Variables[p.w], asignaciôn, psr) 
para cada valor en Orden-Valores-Dominio(v<w; asignaciôn, psr) hacer 
si valor es consistente con asignaciôn de acuerdo a las Restricciones [psr] entonces 
anadir {var = valor ) a asignaciôn 

resultado <— Vuelta-A 7RÂ.s-RECURsrvA(asignaciôn, psr) 
si resultado A fallo entonces devolver resultado 
borrar j var = valor } de asignaciôn 
devolver fallo 


Figura 5.3 Un algoritmo simple de vuelta atrâs para problemas de satisfacciôn de restricciones. 
El algoritmo se modela sobre la büsqueda primero en profundidad recursivo del Capitulo 3. Las 
funciones Selecciona-Variable-NoAsignada y Orden-Valores-Dominio pueden utilizarse para 
implementar las heuristicas de proposito general discutidas en el texto. 
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La vuelta atrâs sencilla es un algoritmo sin information en la terminologfa del Ca- 
pitulo 3, as! que no esperamos que sea muy eficaz para problemas grandes. En la pri¬ 
mera columna de la Figura 5.5 se muestran los resultados para algunos problemas y se 
confirman nuestras expectativas. 

En el Capitulo 4 remediamos el funcionamiento pobre de los algoritmos de büsqueda 
sin informacion suministrândoles funciones heurfsticas especificas del dominio obteni- 
das de nuestro conocimiento del problema. Résulta que podemos resolver los PSRs de 


Problema 

Vuelta atrâs 

VA + MVR 

Comprobacion 
hacia delante 

CD + MVR 

Mmimo conflicto 

EE.UU. 

(> 1.000K) 

(> 1.000K) 

2K 

60 

64 

/7-reinas 

(> 40.000K) 

13.500K 

(> 40.000K) 

817K 

4K 

Zébra 

3.859K 

1K 

35K 

0,5K 

2K 

Aleatorio 1 

415K 

3K 

26K 

2K 


Aleatorio 2 

942K 

27K 

77K 

15K 



Figura 5.5 Comparaciôn de varios algoritmos de PSR sobre varios problemas. Los algoritmos, 
de izquierda a derecha, son vuelta atrâs simple, vuelta atrâs con la heurfstica MVR, comproba¬ 
cion hacia delante, comprobacion hacia delante con MVR y büsqueda local de conflictos mini- 
mos. En cada celda estâ el numéro medio de comprobaciones consistentes (sobre cinco ejecuciones) 
requerido para resolver el problema; notemos que todas las entradas excepto las dos de la parte 
superior derecha estân en miles (K). Los numéros en paréntesis significan que no se ha encontra- 
do ninguna respuesta en el numéro asignado de comprobaciones. El primer problema es colore - 
ar, con cuatro colores, los 50 estados de los Estados Unidos de América. Los problemas restantes 
se han tomado de Bacchus y van Run ( 1995), Tabla 1. El segundo problema cuenta el numéro to¬ 
tal de comprobaciones requeridas para resolver todos los problemas de H-reinas para n de dos a 
50. El tercero es el «puzle Zébra», descrito en el Ejercicio 5.13. Los dos ûltimos son problemas 
artificiales aleatorios. (Mfnimos conflictos no se ejecuto sobre estos.) Los resultados sugieren que 
la comprobacion hacia delante con la heurfstica MVR es mejor sobre todos estos problemas que 
los otros algoritmos con vuelta atrâs, pero no siempre es mejor que los de büsqueda local de mf- 
nimo conflicto. 
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manera eficiente sin tal conocimiento especifico del dominio. En cambio, encontramos 
métodos de propôsito general que proporcionan las siguientes preguntas: 

1. Que variable debe asignarse después, y en qué orden deberian intentarse sus 
valores? 

2. ^Cuâles son las implicaciones de las asignaciones de las variables actuales para 
las otras variables no asignadas? 

3. Cuândo un camino falla, es decir, un estado alcanzado en el que una variable no 
tiene ningün valor legal, /pucdc la büsqueda evitar repetir este fracaso en ca- 
minos siguientes? 

Las subsecciones siguientes contestan a cada una de estas preguntas. 

Variable y ordenamiento de valor 

El algoritmo con vuelta atrâs contiene la linea 

var <— Selecciona-Variable-Noasignada(Variables[/w;-], asignaciôn, psr) 

Por defecto, Selecciona-Variable-Noasignada simplemente selecciona la siguiente va¬ 
riable no asignada en el orden dado por la lista Variables \psr\. Esta variable estâtica, rara 
vez ordenada, da como resultado una büsqueda mas eficiente. Por ejemplo, después de las 
asignaciones para AO — rojo y T = verde, hay un solo valor posible para AS, enfonces tie¬ 
ne sentido asignar AS = azul a continuacion mas que asignar un valor a Q. De hecho, des¬ 
pués de asignar AS, las opciones para Q, NGS, y V estân forzadas. Esta idea intuitiva (escoger 
la variable con menos valores «legales») se llama heuristica de mînimos valores restan¬ 
tes (MVR). También llamada heuristica «variable mas restringida» o «primero en fallar», 
este ültimo es porque escoge una variable que con mayor probabilidad causarâ pronto un 
fracaso, con lo cual podamos el ârbol de büsqueda. Si hay una variable X con cero valo¬ 
res legales restantes, la heuristica MVR seleccionarâ X y el fallo sera descubierto inme- 
diatamente (evitando büsquedas inütiles por otras variables que siempre fallarân cuando 
se seleccione X finalmente). La segunda columna de la Figura 5.5, etiquetada con VA + 
MVR, muestra el funcionamiento de esta heuristica. El funcionamiento es de très a 3.000 
veces mejor que la vuelta atrâs simple, segün el problema. Notemos que nuestra medida 
de rendimiento no hace caso del coste suplementario de calcular los valores heuristicos; 
la siguiente subseccion describe un método que maneja este coste. 

La heuristica MVR no ayuda en absoluto en la eleccion de la primera région a co- 
lorear en Australia, porque al principio cada région tiene très colores legales. En este caso, 
el grado heuristico es mas prâctico. Intenta reducir el factor de ramificacion sobre fu¬ 
tures opciones seleccionando la variable, entre las variables no asignadas, que esté im- 
plicada en el mayor nümero de restricciones. En la Figura 5.1, AS es la variable con el 
grado mas alto, cinco; las otras variables tienen grado dos o très, excepto T, que tiene 
cero. De hecho, una vez elegida AS, aplicando el grado heuristico que resuelve el pro¬ 
blema sin pasos en falso puede elegir cualquier color consistente en cada punto selec- 
cionado y todavia llegar a una solucion sin vuelta atrâs. La heuristica del minimo de 
valores restantes es por lo general una guia mâs poderosa, pero el grado heuristico pue¬ 
de ser ütil como un desempate. 
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VALOR MENOS 
RESTRINGIDO 


COMPROBACIÔN 
HACIA DELANTE 


Una vez que se selecciona una variable, el algoritmo debe decidir el orden para exa- 
minar sus valores. Para esto, la heurfstica del valor menos restringido puede ser eficaz 
en algunos casos. Se prefiere el valor que excluye las pocas opciones de las variables 
vecinas en el grafo de restricciones. Por ejemplo, supongamos que en la Figura 5.1 he- 
mos generado la asignaciôn parcial con AO = roja y 77V = verde, y que nuestra siguiente 
opciôn es para Q. Azul séria una opciôn mala, porque élimina el ültimo valor legal del 
vecino de Q, SA. La heuristica del valor menos restringido, por lo tanto, prefiere rojo al 
azul. En general, la heuristica trata de dejar la flexibilidad mâxima de las asignaciones 
de las variables siguientes. Desde luego, si tratamos de encontrar todas las soluciones a 
un problema, no solo la primera, entonces el orden no importa porque tenemos que con¬ 
sidérer cada valor de todos modos. Ocurre lo mismo si no hay soluciones al problema. 

Propagaciôn de la informaciôn a través de las 
restricciones 

Hasta ahora nuestro algoritmo de büsqueda considéra las restricciones sobre una varia¬ 
ble solo cuando la variable es elegida por Selecciona-Variable-Noasignada. Pero mi- 
rando algunas restricciones antes en la büsqueda, o incluso antes de que haya comenzado 
la büsqueda, podemos reducir drâsticamente el espacio de ésta. 

Comprobaciôn hacia delante 

Otra manera para usar mejor las restricciones durante la büsqueda se llama compro¬ 
baciôn hacia delante. Siempre que se asigne una variable X, el proceso de comproba¬ 
ciôn hacia delante mira cada variable no asignada Y que esté relacionada con X por una 
restricciôn y suprime del dominio de Y cualquier valor que sea inconsistente con el va¬ 
lor elegido para X. La Figura 5.6 muestra el progreso de una büsqueda, que colorea un 
mapa, con la comprobaciôn hacia delante. Hay dos puntos importantes que debemos 
destacar sobre este ejemplo. Primero, notemos que después de asignar AO = rojo y 
Q = verde, los dominios de TN y AS' se reducen a un solo valor; hemos eliminado las 
ramificaciones de estas variables totalmente propagando la informaciôn de AO y Q. La 
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Figura 5.6 Progreso de una büsqueda, que colorea un mapa, con comprobaciôn hacia delante. 
AO = rojo se asigna primero; entonces la comprobaciôn hacia delante suprime rojo de los domi¬ 
nios de las variables vecinas 77V y AS. Después Q = verde ; verde se suprime de los dominios TN, 
AS. y NGS. Después V = azul: azul se suprime del dominio de NGS y AS’, y se obtiene AS sin va¬ 
lores legales. 
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heuristica MVR, la cual es una companera obvia para la comprobacion hacia delante, 
seleccionarîa automâticamente AS y 77V después. (En efecto, podemos ver la compro¬ 
bacion hacia delante como un modo eficiente de incrementar el câlculo de la informa- 
ciôn que necesita la heuristica MVR para hacer su trabajo.) Un segundo punto a tener 
en cuenta es que, después de V = azul, el dominio de SA esta vacio. Por eso, la com¬ 
probacion hacia delante ha descubierto que la asignaciôn parcial {AO = rojo, Q = ven¬ 
de, V = azul } es inconsistente con las restricciones del problema, y el algoritmo volverâ 
atrâs inmediatamente. 

Propagaciôn de restricciones 

Aunque la comprobacion hacia delante descubre muchas inconsistencias, no descu- 
bre todas. Por ejemplo, considéré la tercera fila de la Figura 5.6. Muestra que cuando 
AO es rojo y Q es verde, tanto 77V como AS estân obligadas a ser azules. Pero son ad- 
yacentes y por tanto no pueden tener el mismo valor. La comprobacion hacia delante 
no la descubre como una inconsistencia, porque no mira lo bastante lejos. La propa¬ 
gaciôn de restricciones es el término general para la propagaciôn de las implicacio- 
nes de una restricciôn sobre una variable en las otras variables; en este caso necesitamos 
propagar desde AO yga 77V y AS, (como se hizo con la comprobacion hacia delan¬ 
te) y luego a la restricciôn entre 77V y AS para descubrir la inconsistencia. Y quere- 
mos hacer esto râpido: no es nada bueno reducir la cantidad de büsqueda si gastamos 
mas tiempo propagando restricciones que el que hubiéramos gastado haciendo una büs¬ 
queda simple. 

La idea del arco consistente proporciona un método râpido de propagaciôn de res¬ 
tricciones que es considerablemente mas potente que la comprobacion hacia delante. 
Aqui, «el arco» se refiere a un arco dirigido en el grafo de restricciones, como el arco 
de AS a NGS. Considerando los dominios actuales de AS y NGS, el arco es consistente 
si, para todo valor x de AS, hay algûn valor y de NGS que es consistente con x. En la ter¬ 
cera fila de la Figura 5.6, los dominios actuales de AS y NGS son { azul } y { rojo, azul ), 
respectivamente. Para AS = azul, hay una asignaciôn consistente para NGS, a saber, NGS 
= roja; por lo tanto, el arco de AS a NGS es consistente. Por otra parte, el arco inverso 
desde VGS a AS no es consistente: para la asignaciôn NGS = azul, no hay ninguna asig¬ 
naciôn consistente para AS. El arco puede hacerse consistente suprimiendo el valor azul 
del dominio de NGS. 

Podemos aplicar también el arco consistente al arco de AS a TN en la misma etapa 
del proceso de büsqueda. La tercera fila de la tabla en la Figura 5.6 muestra que ambas 
variables tienen el dominio {azul). El resultado es que azul debe suprimirse del domi¬ 
nio de AS, dejando el dominio vacio. Asi, la aplicaciôn del arco consistente ha causado 
la detecciôn temprana de una inconsistencia que no es descubierta por la comprobacion 
hacia delante pura. 

La comprobacion de la consistencia del arco puede aplicarse como un paso de pre- 
proceso antes de comenzar el proceso de büsqueda, o como un paso de propagaciôn (como 
la comprobacion hacia delante) después de cada asignaciôn durante la büsqueda (a ve- 
ces se llama a este ültimo algoritmo MCA, Mantenimiento de la Consistencia del Arco). 
En uno u otro caso, el proceso debe aplicarse repetidamente hasta que no permanezcan 
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mas inconsistencias. Esto es porque, siempre que un valor se suprime del dominio de 
alguna variable para quitar una inconsistencia de un arco, una nueva inconsistencia de 
arco podrfa surgir en arcos que senalan a aquella variable. El algoritmo compléta para 
la consistencia de arco, AC-3, utiliza una cola para guardar los arcos que tienen que com- 
probarse (véase la Figura 5.7). Cada arco (A , A ) se quita sucesivamente de la agenda y 
se comprueba; si cualquier valor requiere ser suprimido del dominio de X t , enfonces cada 
arco (X k , X) senalando a X j debe ser reinsertado sobre la cola para su comprobacion. La 
complejidad de la comprobacion de consistencia de arco puede analizarse como sigue: 
un PSR binario tiene a lo mas 0(n 2 ) arcos; cada arco (X k , X,-) puede insertarse en la agen¬ 
da solo d veces, porque A tiene a lo mas d valores para suprimir; la comprobacion de la 
consistencia de un arco puede hacerse en 0(d 2 ) veces; entonces el tiempo total, en el caso 
peor, es 0(// 2 <f 3 ). Aunque sea considerablemente mas costoso que la comprobacion ha- 
cia delante, el coste suplementario por lo general vale la pena 1 . 

Como los PSRs incluyen a 3SAT como un caso especial, no esperamos encontrar 
un algoritmo de tiempo polinomial que puede decidir si un PSR es consistente. De ahi, 
deducimos que la consistencia de arco no révéla todas las inconsistencias posibles. Por 
ejemplo, en la Figura 5.1, la asignacion parcial {AO = rojo, NGS = rojo ( es inconsis- 
tente, pero AC-3 no la encuentra. Las formas mas potentes de la propagacion pueden 
/(-consistencia definirse utilizando la nocion llamada ^-consistencia. Un PSR es ^-consistante si, para 

cualquier conjunto de k — 1 variables y para cualquier asignacion consistente a esas 
variables, siempre se puede asignar un valor consistente a cualquier Uésima variable. 


funciôn AC-3 (psr) devuelve el PSR, posiblemente con dominio reducido 
entradas: psr, un PSR binario con variables (A,, X 2 , ...,X n ) 
variables locales: cola, una cola de arcos, inicialmente todos los arcos del psr 

mientras cola es no vacfa hacer 
(X i ,X J ) <— BORRAR-PRIMERO(co/fl) 
si Borrar-Valores-InconsistentesA";, X) entonces 
para cada X k en Vecinos[X,.] hacer 
anadirCq, XI) a la cola 


funciôn Borrar-Valores-InconsistentesA), X!) devuelve verdadero si y solo si hemos 
borrado un valor 
borrado <— falso 

para cada x en DominioIX,] hacer 

si no hay un y en Dominio[X-] que permita a (x,y) satisfacer la restricciôn entre A, y X- 
entonces borrar x de Dominio [XJ; borrado X verdadero 
devolver borrado 


Figura 5.7 El algoritmo AC-3 de la consistencia del arco. Después de aplicar AC-3, cada arco 
es arco-consistente, o alguna variable tiene un dominio vacio, indicando que el PSR no puede ha¬ 
cerse arco-consistente (y asi el PSR no puede resolverse). El nombre «AC-3» fue usado por el in- 
ventor del algoritmo (Mackworth, 1977) porque era la tercera version desarrollada en el artfculo. 


El algoritmo AC-4, debido a Mohr y Henderson (1986), se ejecuta en 0(« 2 cF)- Véase el Ejercicio 5.10. 
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Por ejemplo, la 1-consistencia significa que cada variable individual, por si mismo, es 
consistente; también llamado consistencia de nodo. La 2-consistencia es lo mismo que 
la consistencia de arco. La 3-consistencia significa que cualquier par de variables ad- 
yacentes pueden siempre extenderse a una tercera variable vecina; también llamada con¬ 
sistencia de camino. 

Un grafo es fuertemente / -consistente si es /.-consistente y también (k — 1)- con¬ 
sistente, (k — 2)-consistente..., hasta 1-consistente. Ahora supongamos que tenemos un 
PSR con n nodos y lo hacemos fuertemente //-consistente (es decir, fuertemente k- con¬ 
sistente para k — //). Podemos resolver el problema sin vuelta atrâs. Primera, elegimos 
un valor consistente para X v Enfonces tenemos garantizado el poder elegir un valor para 
X 2 porque el grafo es 2-consistente, para X-, porque es 3-consistente, etcétera. Para cada 
variable A, tenemos solo que averiguar los valores de d, en el dominio, para encontrar 
un valor consistente con X v ..,X i _ v Tenemos garantizado encontrar una solucion en 0{nd). 
Desde luego, no tenemos ningün tiempo libre: cualquier algoritmo para establecer la 
/?-consistencia debe llevar un tiempo exponencial en n, en el caso peor. 

Hay una amplia diferencia entre consistencia de arco y //-consistencia: ejecutar con¬ 
trôles de consistencia fuerte llevarâ mas tiempo, pero tendra un efecto mayor en la re- 
ducciôn del factor de ramificacion y en descubrir asignaciones parciales inconsistentes. 
Es posible calcular el valor k mas pequeno tal que al ejecutar la A-consistcncia asegura 
que el problema puede resolverse sin volver atrâs ( véase la Secciôn 5.4), pero a menu- 
do es poco prâctico. En la prâctica, la determinacion del nivel apropiado de comproba- 
cion de la consistencia es sobre todo una ciencia empirica. 


Manejo de restricciones especiales 

Cierto tipo de restricciones aparecen con frecuencia en problemas reales y pueden ma- 
nejarse utilizando algoritmos de proposito especial mas eficientes que los métodos de 
propôsito general descritos hasta ahora. Por ejemplo, la restriccion Todasdif dice que to- 
das las variables implicadas deben tener valores distintos (como en el problema cripto- 
aritmético). Una forma simple de detecciôn de inconsistencias para la restriccion Todasdif 
trabaja como sigue: si hay m variables implicadas en la restriccion, y si tienen n valores 
posibles distintos, y m > n, entonces la restriccion no puede satisfacerse. 

Esto nos lleva al algoritmo simple siguiente: primero, quite cualquier variable en la 
restriccion que tenga un dominio con una sola posibilidad, y suprima el valor de esa va¬ 
riable de los dominios de las variables restantes. Repetir mientras existan variables con 
una sola posibilidad. Si en algün momento se produce un dominio vacio o hay mas va¬ 
riables que valores en el dominio, entonces se ha descubierto una inconsistencia. 

Podemos usar este método para detectar la inconsistencia en la asignacion parcial 
{AO = rojo, NGS — rojo] para la Figura 5.1. Notemos que las variables SA, TN y Q es- 
tân efectivamente relacionadas por una restriccion Todasdif porque cada par debe ser de 
un color diferente. Después de aplicar AC-3 con la asignacion parcial, el dominio de cada 
variable se reduce a {verde, azul}. Es decir, tenemos très variables y solo dos colores, 
entonces se viola la restriccion Todasdif Asi, un procedimiento simple de consistencia 
para una restriccion de orden alto es a veces mas eficaz que la aplicacion de la consis¬ 
tencia de arco a un conjunto équivalente de restricciones binarias. 
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Quizâ la restricciôn de orden alto mas importante es la restricciôn de recursos, a 
veces llamada restriccion como-mâximo. Por ejemplo, PA V .., PA 4 denotan los nümeros 
de personas asignadas a cada una de las cuatro tareas. La restriccion que no asigna mas 
de 10 personas en total, se escribe como-mâximo (10, PA ,, PA 2 , PA 3 , PA X ). Se puede des- 
cubrir una inconsistencia simplemente comprobando la suma de los valores mmimos de 
los dominios actuales; por ejemplo, si cada variable tiene el dominio {3, 4, 5, 6 (, la res¬ 
tricciôn como-mâximo no puede satisfacerse. También podemos hacer cumplir la con- 
sistencia suprimiendo el valor mâximo de cualquier dominio si no es consistente con los 
valores mmimos de los otros dominios. Asi, si cada variable, en nuestro ejemplo, tiene 
el dominio {2, 3, 4, 5, 6 [, los valores 5 y 6 pueden suprimirse de cada dominio. 

Para problemas grandes de recursos limitados con valores enteros (como son los pro- 
blemas logisticos que implican el movimiento de miles de personas en cientos de vehi- 
culos) no es, por lo general, posible representar el dominio de cada variable como un 
conjunto grande de enteros y gradualmente reducir ese conjunto por los métodos de com- 
probaciôn de la consistencia. En cambio, los dominios se representan por limites supe- 
riores e inferiores y son manejados por la propagaciôn de limites. Por ejemplo, 
supongamos que hay dos vuelos, 271 y 272, para los cuales los aviones tienen capaci- 
dades de 156 y 385, respectivamente. Los dominios iniciales para el nümero de pasaje- 
ros sobre cada vuelo son 

VueIo271 e [0,165] y VueIo272e[ 0,385] 

Supongamos ahora que tenemos la restricciôn adicional que los dos vuelos juntos de- 
ben llevar a las 420 personas: VueIo271 + Vuelo272 e [420,420]. Propagando los limi¬ 
tes de las restricciones, reducimos los dominios a 

Vuelo271 e [35,165] y VueIo272 e [255,385] 

Decimos que un PSR es consistente-acotado si para cada variable X, y tanto para los va¬ 
lores de las cotas inferior y superior de X, existe algün valor de Y que satisface la res¬ 
tricciôn entre X e Y, para cada variable Y. Esta clase de propagaciôn de limites se utiliza, 
ampliamente, en problemas restringidos prâcticos. 

Vuelta atrâs inteligente: mirando hacia atrâs 

El algoritmo de Büsqueda-Con-Vuelta-Atrâs de la Figura 5.3 tiene una politica muy 
simple para saber qué hacer cuando falla una rama de büsqueda: hacia atrâs hasta la va¬ 
riable anterior e intentar un valor diferente para ella. Se llama vuelta atrâs cronolôgi- 
ca, porque se visita de nuevo el punto de decision mâs reciente. En esta subsecciôn, 
veremos que hay muchos caminos mejores. 

Veamos lo que ocurre cuando aplicamos la vuelta atrâs simple de la Figura 5.1 con 
una variable fija que ordena Q, NGS, V, T, AS, AO, TN. Supongamos que hemos ge- 
nerado la asignaciôn parcial {Q = rojo, NGS = verde, V = azul, T = rojo}. Cuando 
intentamos la siguiente variable, AS, vemos que cada valor viola una restricciôn. ; Vol- 
vemos hacia atrâs hasta T e intentamos un nuevo color para Tasmania! Obviamente 
esto es inütil (el nuevo color de Tasmania no puede resolver el problema con Austra- 
lia del Sur). 
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Una aproximaciôn mas inteligente a la vuelta atrâs es ir hacia atrâs hasta el conjun- 
to de variables que causaron elfracaso. A este conjunto se le llama conjunto conflic- 
to; aqui, el conjunto conflicto para AS es { Q, NGS, V }. En general, el conjunto conflicto 
para la variable X es el conjunto de variables previamente asignadas que estân relacio- 
nadas con X por las restricciones. El método salto-atrâs rétrocédé a la variable mâs re- 
ciente en el conjunto conflicto; en este caso, el salto-atrâs deberia saltar sobre Tasmania 
e intentar un nuevo valor para V. Esto se implémenta fâcilmente modificando la BÜS- 
queda-Con-Vuelta-Atrâs de modo que acumule el conjunto conflicto mientras com- 
prueba un valor legal para asignar. Si no se encuentra un valor legal, deberia devolver 
el elemento mâs reciente del conjunto conflicto con el indicador de fracaso. 

El lector habrâ notado que la comprobaciôn hacia delante puede suministrar el con¬ 
junto conflicto sin trabajo suplementario: siempre que la comprobaciôn hacia delante, 
basada en una asignaciôn a X, suprima un valor del dominio de Y, deberiamos anadir X 
al conjunto conflicto de Y. También, siempre que se suprima el ültimo valor del domi¬ 
nio de Y, las variables en el conjunto conflicto de Y se ahaden al conjunto conflicto de 
X. Entonces, cuando llegamos a Y, sabemos inmediatamente dônde volver atrâs si es ne- 
cesario. 

El lector habrâ notado algo raro: el salto-atrâs ocurre cuando cada valor de un do¬ 
minio estâ en conflicto con la asignaciôn actual; ;pero la comprobaciôn hacia delante 
descubre este acontecimiento y previene la büsqueda de alcanzar alguna vez tal nodo! 
De hecho, puede demostrarse que cada rama podada por el salto-atrâs también se poda 
por la comprobaciôn hacia delante. De ahi, el salto-atrâs simple es redundante con una 
büsqueda de comprobaciôn hacia delante o, en efecto, en una büsqueda que usa la com¬ 
probaciôn de consistencia fuerte, como MCA. 

A pesar de las observaciones del pârrafo anterior, la idea que hay detrâs del salto- 
atrâs sigue siendo buena: retroceder basândose en los motivos de fracaso. El salto-atrâs 
se da cuenta del fracaso cuando el dominio de una variable se hace vacio, pero en mu- 
chos casos una rama es condenada mucho antes de que esto ocurra. Considéré otra vez 
la asignaciôn parcial {AO = rojo, NGS = rojo } (que, de nuestra discusiôn anterior, es 
inconsistente). Supongamos que intentamos T = rojo después y luego asignamos a TN, 
Q, V, AS. Sabemos que no se puede hacer ninguna asignaciôn para estas cuatro ültimas 
variables, ya que finalmente nos quedamos sin valores para intentar en TN. Ahora, la 
pregunta es, / ; a dônde regresar? El salto-atrâs no puede trabajar, porque TN tiene 
realmente valores consistentes con las variables precedentes adjudicadas (TN no tiene 
un conjunto conflicto completo de variables precedentes que hicieron que fallara). Sa¬ 
bemos, sin embargo, que las cuatro variables TN, Q, V, y AS, juntas, dan fallo debido a 
un conjunto de variables precedentes, que directamente entran en conflicto con las cua¬ 
tro. Esto conduce a una nociôn mâs profunda del conjunto conflicto para una variable 
como TN: es ese conjunto de variables precedentes el que causa que TN, junto con cual- 
quier variable siguiente, no tenga ninguna soluciôn consistente. En este caso, el conjunto 
es AO y NGS, asi que el algoritmo deberia regresar a NGS y saltarse Tasmania. Al al- 
goritmo de salto-atrâs que utiliza los conjuntos conflicto definidos de esta manera se le 
llama salto-atrâs dirigido-por-conflicto. 

Debemos explicar ahora como calculamos estos nuevos conjuntos conflictos. El mé¬ 
todo, de hecho, es muy simple. El fracaso «terminal» de una rama de büsqueda siempre 
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ocurre porque el dominio de una variable se hace vacio; esa variable tiene un conjunto 
conflicto estândar. En nuestro ejemplo, AS' falla, y su conjunto conflicto es {AO, TN, Q (. 
Saltamos atrâs a Q, y Q absorbe el conjunto conflicto de AS (menos Q, desde luego) en 
su propio conjunto conflicto directo, que es { TN, NGS ( ; el nuevo conjunto conflicto es 
{AO, TN, NGS}. Es decir no hay ninguna soluciôn de Q hacia delante, dada la asigna- 
ciôn precedente a { AO, TN, NGS }. Por lo tanto, volvemos atrâs a NT, el mas reciente de 
éstos. TN absorbe {AO, TN, NGS } — {TN} en su propio conjunto conflicto directo 
{AO}, dando {AO, NGS ( (como en los pârrafos anteriores). Ahora el algoritmo de sal- 
to atrâs a NGS, como era de esperar. Resumiendo: sea X j la variable actual, y sea conf{X') 
su conjunto conflicto. Si para todo valor posible para X j falla, saltamos atrâs a la varia¬ 
ble mâs reciente X t , en conf(Xj), y el conjunto 

confiX) <- confiX) U conf(X) - {X,| 

Salto-atrâs dirigido-por-conflicto va hacia atrâs al punto derecho en el ârbol de büsque- 
da, pero no nos impide cometer los mismos errores en otra rama del ârbol. Aprender la 
restricciôn realmente modifica el PSR anadiendo una nueva restricciôn inducida por es¬ 
tas conflictos. 


5.3 Busqueda local para problemas de satisfaccion de 
restricciones 


Los algoritmos de büsqueda local {yéase la Secciôn 4.3) resultan ser muy eficaces en la 
resoluciôn de muchos PSRs. Ellos utilizan una formulaciôn de estados compléta: el es- 
tado inicial asigna un valor a cada variable, y la funciôn sucesor, por lo general, traba- 
ja cambiando el valor de una variable a la vez. Por ejemplo, en el problema de las 8-reinas, 
el estado inicial podria ser una configuraciôn arbitraria de ocho reinas en ocho colum- 
nas, y la funciôn sucesor escoge a una reina y piensa en moverla a otra parte en su co- 
lumna. Otra posibilidad séria comenzar con ocho reinas, una por columna, en una 
permutaciôn de las ocho filas, y generaria a un sucesor tomando dos reinas que inter- 
cambian sus filas 2 . Hemos visto ya, realmente, un ejemplo de büsqueda local para re- 
solver un PSR: la aplicaciôn de las ascension de colinas al problema de n-reinas (pâgina 
126). Otra es la aplicaciôn de SAT-Caminar (pâgina 251) para resolver problemas de 
satisfaccion, un caso especial de PSRs. 

En la elecciôn de un nuevo valor para una variable, la heuristica mâs obvia debe se- 
leccionar el valor que cause el nümero minimo de conflictos con otras variables (heu- 
minimo conflicto ristica de mmimos-conflictos). La Figura 5.8 muestra el algoritmo y en la Figura 5.9 se 
muestra su aplicaciôn a un problema de 8-reinas, cuantificada en la Figura 5.5. 

Los mmimos-conflictos son sorprendentemente eficaces para muchos PSRs, en par- 
ticular, cuando se ha dado un estado inicial razonable. En la ültima columna de la Figu- 


2 La büsqueda local puede extenderse fâcilmente a PSRs con funciones objetivo. En este caso, todas las técnicas 
de ascension de colinas y temple simulado pueden aplicarse para optimizar la funciôn objetivo. 
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funciôn Mi'm\ ios-CoNr : LiCTOS(/>.sr,/7!ar_/;a.vo.v) devuelve una solucion o fallo 
variables de entrada: psr, un problema de satisfaction de restricciones 

max_pasos , numéro de pasos permitidos antes de abandonar 

actual <— una asignacion compléta initial para psr 
para i = 1 hasta max_pasos hacer 

si actual es una solucion para psr entonces devolver actual 
var <r- escoger aleatoriamente una variable conflictiva de Variables [psr] 
valor <— el valor v para var que minimiza Conflictos(vw, v, actual, psr ) 
conjunto var = valor en actual 
devolver fallo 


Figura 5.8 El algoritmo de Minimos-Conflictos para resolver PSRs por büsqueda local. El estado 
inicial puede elegirse al azar o por un proceso de asignacion voraz que elige un valor de mmimo 
conflicto para cada variable a cambiar. La funciôn Conflictos cuenta el numéro de restricciones 
violadas por un valor particular, considerando el resto de la asignacion actual. 
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Figura 5.9 Una solution de dos pasos para un problema de 8-reinas usando mmimos-conflictos. 
En cada etapa, se elige una reina para la reasignaciôn en su columna. El numéro de conflictos (en 
este caso, el numéro de reinas atacadas) se muestra en cada cuadrado. El algoritmo rnueve a la rei¬ 
na al cuadrado de mmimo conflicto, deshaciendo los empâtes de manera aleatoria. 


ra 5.5 se muestra su funcionamiento. Extraordinariamente, sobre el problema de las n- 
reinas, si no cuenta la colocaciôn inicial de las reinas, el tiempo de ejecucion de mrni- 
mos-conflictos es mas o menos independiente del tamano del problema. Resuelve hasta 
el problema de un millôn de reinas en un promedio de 50 pasos (después de la asigna¬ 
cion inicial). Esta observacion notable fue el estrmulo que condujo a gran parte de la in- 
vestigaciôn en los anos 90 sobre la büsqueda local y la diferencia entre problemas faciles 
y difîciles, los cuales veremos en el Capitulo 7. Hablando de forma aproximada, las 
n-reinas son faciles para la büsqueda local porque las soluciones estân densamente dis- 
tribuidas en todas las partes del espacio de estados. Los mmimos-conflictos también tra- 
bajan bien para problemas difîciles. Por ejemplo, se han utilizado para programar las 
observaciones del Telescopio Hubble, reduciendo el tiempo utilizado para programar 
una semana de observaciones, de très semanas (!) a alrededor de 10 minutas. 
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Otra ventaja de la büsqueda local consiste en que puede usarse en un ajuste online 
cuando el problema cambia. Esto es particularmente importante en la programaciôn 
de problemas. El programa de vuelos de una semana puede implicar miles de vuelos 
y decenas de miles de asignaciones de personal, pero el mal tiempo en un aeropuer- 
to puede convertir a la programaciôn en no factible. Nos gustaria reparar la progra¬ 
maciôn con un nümero mmimo de cambios. Esto puede hacerse fâcilmente con un 
algoritmo de büsqueda local comenzando desde el programa actual. Una büsqueda 
con vuelta atrâs con un nuevo conjunto de restricciones, por lo general, requiere mu- 
cho mas tiempo y podria encontrar una soluciôn, desde el programa actual, con 
muchos cambios. 


5.4 La estructura de los problemas 


SUBPROBLEMAS 

INDEPENDANTES 


COMPONENTES 

CONECTADOS 


En esta secciôn, examinamos las formas por las cuales la estructura del problema, re- 
presentada por el grafo de restricciones, puede utilizarse para encontrar soluciones de 
forma râpida. La mayor parte de estas aproximaciones son muy generales y aplicables 
a otros problemas, por ejemplo, razonamiento probabilistico. Después de todo, la üni- 
ca forma que podemos esperar, posiblemente, que pueda tratar con el mundo real es 
la descomposiciôn en muchos subproblemas. Viendo de nuevo la Figura 5.1 (b), con 
miras a identificar la estructura del problema, se destaca un hecho: Tasmania no esta 
relacionada con el continente 3 . Intuitivamente, es obvio que colorear Tasmania y co- 
lorear el continente son subproblemas independientes (cualquier soluciôn para el con¬ 
tinente combinado con cualquier soluciôn para Tasmania produce una soluciôn para 
el mapa entero). La independencia puede averiguarse simplemente buscando compo- 
nentes conectados del grafo de restricciones. Cada componente corresponde a un sub- 
problema PSR t . Si la asignaciôn S t es una soluciôn de PSRj, enfonces U, S, es una 
soluciôn de U ; PSR : . / ; Por qué es tan importante? Consideremos lo siguiente: supon- 
ga que cada PSR j tiene c variables del total de n variables, donde c es una constante. 
Enfonces hay n/c subproblemas, cada uno de los cuales trae consigo como mucho d c de 
trabajo para resolverlo. De ahi, que el trabajo total es 0(d c n/c), que es lineal en n; sin 
la descomposiciôn, el trabajo total es 0(d"), que es exponencial en n. Seamos mas con¬ 
crètes: la division de un P SR booleano con n = 80 en cuatro subproblemas con c = 20 
reduce el tiempo de resoluciôn, en el caso peor, de la vida del universo hasta menos de 
un segundo. 

Los subproblemas completamente independientes son deliciosos, pero raros. En la ma- 
yoria de casos, los subproblemas de un PSR estân relacionados. El caso mas simple es 
cuando el grafo de restricciones forma un ârbol: cualquiera dos variables estân relacio- 
nadas por, a lo sumo, un camino. La Figura 5.10(a) muestra un ejemplo esquemâtico 4 . 


3 lin cartôgrafo cuidadoso o un tasmanio patriôtico podria objetar que Tasmania no debiera ser coloreada lo mis- 
mo que su vecino de continente mas cercano, lo que evitaria la impresiôn de que pueda ser parte de aquel estado. 

4 Tristemente, muy pocas regiones del mundo, con la excepciôn posible de Sulawesi, tienen mapas estructurados 
por ârboles. 
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Mostraremos que cualquier PSR estructurado por ârbol puede resolverse en tiempo li- 
neal en el numéro de variables. El algoritmo tiene los siguientes pasos: 

1. Elija cualquier variable como la rafz del ârbol, y ordene las variables desde la 
rafz a las hojas de tal modo que el padre de cada nodo en el ârbol lo précédé 
en el ordenamiento. ( Véase la Figura 5.10(b).) Etiquetar las variables X v ..,X n 
en orden. Ahora, cada variable excepto la raiz tiene exactamente una variable 
padre. 

2. Para j desde n hasta 2, aplicar la consistencia de arco al arco (X, Xi), donde X t 
es el padre de Xj, quitando los valores del Do mi MO [XJ que sea necesario. 

3. Para j desde 1 an, asigne cualquier valor para X consistente con el valor asig- 
nado para X„ donde X, es el padre de X-. 

Hay dos puntos claves a destacar. Primero, después del paso 2 el PSR es directamente 
arco-consistente, entonces la asignacion de valores en el paso 3 no requiere ninguna vuel- 
ta atrâs. ( Véase la discusiôn de ^-consistencia de la pâgina 167.) Segundo, aplicando la 
comprobacion de consistencia de arco en orden inverso en el paso 2, el algoritmo ase- 
gura que cualquier valor suprimido no puede poner en peligro la consistencia de arcos 
que ya han sido tratados. El algoritmo completo se ejecuta en tiempo 0(nd 2 ). 

Ahora que tenemos un algoritmo eficiente para ârboles, podemos considerar si los 
grafos restriccion mâs generales pueden reducirse a ârboles de alguna manera. Hay dos 
modos primarios de hacer esto, uno basado en quitar nodos y uno basado en nodos que 
sufren colisiones. 

La primera aproximacion implica valores de asignacion a algunas variables de modo 
que las variables restantes formen un ârbol. Consideremos el grafo restriccion para Aus- 
tralia, mostrado otra vez en la Figura 5.11 (a). Si pudiéramos suprimir Australia del Sur, 
el grafo se haria un ârbol, como en (b). Por suerte, podemos hacer esto (en el grafo, no 
en el continente) fijando un valor para AS y suprimiendo de los dominios de las otras 
variables cualquier valor que sea inconsistente con el valor elegido para AS. 

Ahora, cualquier solucion para el PSR después de que AS y sus restricciones se qui- 
ten, serâ consistente con el valor elegido para AS. (Para los PSRs binarios, la situaciôn 
es mâs complicada con restricciones de orden alto.) Por lo tanto, podemos resolver el 
ârbol restante con el algoritmo anterior y asi resolver el problema entero. Desde luego, 
en el caso general (a diferencia de colorear el mapa) el valor elegido para AS podria ser 
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CICLO DE CORTE 


ACONDICIONAMIENTO 
DEL CORTE 


DESCOMPOSICIÔN 
EN ÂRBOL 


el incorrecto, enfonces tendriamos que intentarlo con cada uno de ellos. El algoritmo ge¬ 
neral es como sigue: 

1. Elegir un subconjunto S de Variables [psr] tal que el grafo de restricciones se 
convierta en un ârbol después del quitar S. Llamamos a S un ciclo de corte. 

2. Para cada asignacion posible a las variables en S que satisface todas las restric¬ 
ciones sobre S, 

(a) quitar de los dominios de las variables restantes cualquier valor que sea in- 
consistente con la asignacion para S, y 

(b) si el PSR restante tiene una soluciôn, devolverla junto con la asignacion 
para S. 

Si el ciclo de corte tiene tamano c, enfonces el tiempo de ejecuciôn total es 0(d c • (n — c)d 2 ). 
Si el grafo es «casi un ârbol» enfonces c sera pequeno y los ahorros sobre la vuelta atrâs 
serân énormes. En el caso peor, sin embargo, c puede ser tan grande como (n — 2). En- 
contrar el ciclo de corte mâs pequeno es NP-duro, pero se conocen varios algoritmos apro- 
ximados eficientes para esta tarea. A la aproximacion algorftmica general se le llama 
acondicionamiento del corte que veremos de nuevo en el Capitulo 14, donde se usarâ 
para el razonamiento sobre probabilidades. 

La segunda aproximacion esta basada en la construction de una descomposiciôn en 
ârbol del grafo restriction en un conjunto de subproblemas relacionados. Cada sub- 
problema se resuelve independientemente, y las soluciones que resultan son enfonces 
combinadas. Como la mayoria de los algoritmos divide-y-vencerâs, trabajan bien si nin- 
guno de los subproblemas es demasiado grande. La Figura 5.12 muestra una descom¬ 
posiciôn de ârbol del problema que colorea un mapa en cinco subproblemas. Una 
descomposiciôn de ârbol debe satisfacer las très exigencias siguientes: 

• Cada variable en el problema original aparece en al menos uno de los subpro¬ 
blemas. 
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• Si dos variables estân relacionadas por una restricciôn en el problema original, de- 
ben aparecer juntas (junto con la restricciôn) en al menos uno de los subproble- 
mas. 

• Si una variable aparece en dos subproblemas en el ârbol, debe aparecer en cada 
subproblema a lo largo del camino que une a esos subproblemas. 

Las dos primeras condiciones aseguran que todas las variables y las restricciones es¬ 
tân representadas en la descomposiciôn. La tercera condiciôn parece bastante técnica, 
pero simplemente refleja la restricciôn de que cualquier variable debe tener el mismo 
valor en cada subproblema en el cual aparece; los enlaces que unen subproblemas en 
el ârbol hacen cumplir esta restricciôn. Por ejemplo, AS aparece en los cuatro subpro¬ 
blemas de la Figura 5.12. Puede verificar de la Figura 5.11 que esta descomposiciôn 
tiene sentido. 

Resolvemos cada subproblema independientemente; si alguno de ellos no tiene nin- 
guna soluciôn, sabemos que el problema entero no tiene ninguna soluciôn. Si podemos 
resolver todos los subproblemas, entonces intentamos construir una soluciôn global 
como sigue. Primero, vemos a cada subproblema como «una megavariable» cuyo do- 
minio es el conjunto de todas las soluciones para el subproblema. Por ejemplo, los sub¬ 
problemas mâs a la izquierda en la Figura 5.12 forman un problema que colorea el mapa 
con très variables y de ahi que tienen seis soluciones (una es {AO = rojo, AS = azul, 
TN = verde } ). Entonces, resolvemos las restricciones que unen los subproblemas utili- 
zando el algoritmo eficiente para ârboles. Las restricciones entre subproblemas simple¬ 
mente insisten en que las soluciones del subproblema deben estar de acuerdo con sus 
variables compartidas. Por ejemplo, considerando la soluciôn {AO = rojo, AS = azul, 
TN = verde ( para el primer subproblema, la ünica soluciôn consistente para el siguien- 
te subproblema es {AS' = azul, TN = verde, Q = rojo). 
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ANCHURA DEL ÂRBOL 



El grafo de restricciones admite muchas descomposiciones en ârbol; el objetivo en 
la elecciôn de una descomposicion, es hacer los subproblemas tan pequenos como sea 
posible. La anchura del ârbol de una descomposicion en ârbol de un grafo es menor 
que el tamano del subproblema mas grande; la anchura de ârbol del grafo en si mis- 
mo estâ definida por la anchura de ârbol minimo entre todas sus descomposiciones en 
ârbol. Si un grafo tiene la anchura de ârbol w, y nos dan la descomposicion en ârbol 
correspondiente, entonces el problema puede resolverse en 0{nd w + ') veces. De ahi 
que, los PSRs con grafos de restricciones de anchura de ârbol acotada son resolubles 
en tiempo polinomial. Lamentablemente, encontrar la descomposicion con la anchu¬ 
ra del ârbol minima es NP-duro, pero hay métodos heurfsticos que trabajan bien en la 
prâctica. 


5.5 Resumen 


• Los problemas de satisfacciôn de restricciones (o PSRs) consisten en variables 
con restricciones sobre ellas. Muchos problemas importantes del mundo real pue- 
den describirse como PSRs. La estructura de un PSR puede representarse por su 
grafo de restricciones. 

• La busqueda con vuelta atrâs, una forma de büsqueda primero en profundidad, 
es comünmente utilizada para resolver PSRs. 

• Las heurfsticas de minimos valores restantes y minimo grado restante son mé¬ 
todos, indépendantes del dominio, para decidir qué variable elegir en una büsqueda 
con vuelta atrâs. La heuristica valor menos restringido ayuda en la ordenaciôn 
de los valores de las variables. 

• Propagando las consecuencias de las asignaciones parciales que se constmyen, el 
algoritmo con vuelta atrâs puede reducir enormemente el factor de ramificaciôn 
del problema. La comprobaciôn hacia delante es el método mâs simple para ha- 
cerlo. La imposiciôn de la consistencia del arco es una técnica mâs poderosa, pero 
puede ser mâs costosa de ejecutar. 

• La vuelta atrâs ocurre cuando no se puede encontrar ninguna asignaciôn legal para 
una variable. El salto atrâs dirigido por conflictos vuelve atrâs directamente a 
la fuente del problema. 

• La büsqueda local usando la heuristica de minimos conflictos se ha aplicado a los 
problemas de satisfacciôn de restricciones con mucho éxito. 

• La complejidad de resolver un PSR estâ fuertemente relacionada con la estructu¬ 
ra de su grafo de restricciones. Los problemas estructurados por ârbol pueden re¬ 
solverse en tiempo lineal. El acondicionamiento del corte puede reducir un PSR 
general a uno estructurado por ârbol y es muy eficiente si puede encontrarse un 
corte pequeno. Las técnicas de descomposicion en ârbol transforman el PSR en 
un ârbol de subproblemas y son eficientes si la anchura de ârbol del grafo de res¬ 
tricciones es pequena. 
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Notas bibliogrAficas e histôricas 

El primer trabajo relacionado con la satisfaccion de restricciones tratô, en gran parte, res- 
tricciones numéricas. Las restricciones ecuacionales con dominios de enteros fueron es- 
tudiadas por el matemâtico indio Brahmagupta en el siglo vu; a menudo se les llaman 
ecuaciones Diophantine, después del matemâtico griego Diophantus (200-284), quien 
realmente considéré el dominio de racionales positivos. Los métodos sistemâticos para 
resolver ecuaciones lineales por eliminacion de variables fueron estudiados por Gauss 
(1829); la solucion de restricciones lineales en desigualdad se retoman con Lourier 
(1827). 

Los problemas de satisfaccion de restricciones con dominios finitos también tienen 
una larga historia. Por ejemplo, el coloreo de un grafo (el coloreo de un mapa es un caso 
especial) es un viejo problema en matemâticas. Segün Biggs et al. (1986), la conjetura 
de cuatro colores (que cada grafo piano puede colorearse con cuatro o menos colores) 
la hizo primero, en 1852, Lancis Guthrie, un estudiante de Morgan. Esta solucion resis- 
tiô, a pesar de varias reclamaciones publicadas en contra, hasta que Appel y Haken (1977) 
realizaron una demostraciôn, con la ayuda de un computador. 

Clases especificas de problemas de satisfaccion de restricciones aparecen a través 
de la historia de la informâtica. Uno de los primeros ejemplos mas influyentes fue el sis- 
tema de Sketchpad (Sutherland, 1963), quien resolviô restricciones geométricas en 
diagramas y fue el precursor de los programas modernos de dibujo y las herramientas 
CAD. La identificaciôn de PSRs como una clase general se debe a Ugo Montanari (1974). 
La reducciôn de PSRs de orden alto a PSRs puramente binarios con variables auxilia- 
res ( véase el Ejercicio 5.11) se debe originalmente al lôgico Charles Sanders Peirce del 
siglo xix. Pue introducido en la literatura de PSR por Dechter (1990b) y fue elaborado 
por Bacchus y van Beek (1998). Los PSRs con preferencias entre las soluciones son es¬ 
tudiados ampliamente en la literatura de optimizacion; véase Bistarelli et al. (1997) para 
una generalizaciôn del marco de trabajo de PSRs que tienen en cuenta las preferencias. 
El algoritmo de eliminacion de cubo (Dechter, 1999) puede también aplicarse a proble¬ 
mas de optimizacion. 

La büsqueda con vuelta atrâs para la satisfaccion de restricciones se debe a Bitner y 
Reingold (1975), aunque ellos remonten el algoritmo bâsico al siglo xix. Bitner y Rein- 
gold también introdujeron la heuristica MVR, que llamaron heurfstica de la variable mâs 
restringida. Brelaz (1979) uso el grado heuristico como un modo de deshacer el empâ¬ 
te después de aplicar la heuristica MVR. El algoritmo que résulta, a pesar de su simpli- 
cidad, es todavia el mejor método para el ^-coloreo de grafos arbitrarios. Haralick y Elliot 
(1980) propusieron la heuristica del valor menos restringido. 

Los métodos de propagaciôn de restricciones se popularizaron con el éxito de 
Waltz (1975) sobre problemas poliédricos de etiquetado para la vision por computador. Waltz 
mostrô que, en muchos problemas, la propagaciôn compléta élimina la necesidad del re- 
troceso. Montanari (1974) introdujo la nociôn de redes de restricciones y la propagaciôn 
por la consistencia del camino. Alan Mackworth (1977) propuso el algoritmo AC-3 para 
hacer cumplir la consistencia del arco asi como la idea general de combinar la vuelta atrâs 
con algün grado de imposiciôn de la consistencia. AC-4, un algoritmo de consistencia 
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del arco mas eficiente, fue desarrollado por Mohr y Henderson (1986). Inmediatamen- 
te después de que apareciera el trabajo de Mackworth, los investigadores comenzaron a 
experimentar sobre la compensaciôn entre el coste al imponer la consistencia y las ven- 
tajas en términos de reducciôn de la büsqueda. Haralick y Elliot (1980) favorecieron el 
algoritmo de comprobacion hacia delante mmima descrito por McGregor (1979), mien- 
tras que Gaschnig (1979) sugiriô la comprobacion compléta de la consistencia del arco 
después de cada asignaciôn de una variable (un algoritmo posterior llamado MAC de 
Sabin y Freuder (1994)). El trabajo ültimo proporciona pruebas convincentes de que, so¬ 
bre PSRs mas difïciles, la comprobacion compléta de la consistencia de arco merece la 
pena. Freuder (1978, 1982) investigô la nociôn de ^-consistencia y su relaciôn con la com- 
plejidad de resolver PSRs. Apt (1999) describe un marco de trabajo algoritmico gené- 
rico dentro del cual se pueden analizar los algoritmos de propagaciôn de consistencia. 

Los métodos especiales para manejar restricciones de orden alto se han desarrollado 
principalmente dentro del contexto de la programaciôn lôgica de restricciones. Marriot 
y Stuckey (1998) proporcionan una excelente cobertura de la investigaciôn en este area. 
La restricciôn Todasdif fue estudiada por Regin (1994). Las restricciones acotadas fueron 
incorporadas en la programaciôn lôgica de restricciones por Van Hentenryck étal. (1998). 

Los métodos bâsicos de salto atrâs se deben a John Gaschnig (1977, 1979). Kondrak 
y van Beek (1997) mostraron que este algoritmo es esencialmente subsumido por la com¬ 
probacion hacia delante. El salto atrâs dirigido por conflictos fue ideado por Presser 
(1993). La forma mas general y poderosa de la vuelta hacia atrâs inteligente fue real- 
mente désarroilada muy pronto por Stallman y Sussman (1997). Su técnica del retro- 
ceso dirigido por dependencias condujo al desarrollo de sistemas de mantenimiento 
de la verdad (Doyle, 1979), de los que hablaremos en la Secciôn 10.8. La conexiôn en¬ 
tre las dos âreas la analiza Kleer (1989). 

El trabajo de Stallman y Sussman también introdujo la idea de la grabaciôn de res¬ 
tricciones, en la cual los resultados parciales obtenidos por la büsqueda pueden salvar- 
se y ser reutilizados mâs tarde. La idea fue introducida formalmente en la büsqueda con 
vuelta atrâs de Dechter (1990a). Marcar hacia atrâs (Gaschnig, 1979) es un método 
particularmente simple en el cual se salvan las asignaciones por parejas consistentes e 
inconsistentes y usadas para evitar comprobar de nuevo las restricciones. Marcar hacia 
atrâs puede combinarse con salto atrâs dirigido por conflictos; Kondrad y van Beek (1997) 
presentan un algoritmo hibrido que probablemente subsume cualquier método. El mé¬ 
todo del retroceso dinâmico (Ginsberg, 1993) retiene asignaciones parciales satisfac- 
torias de subconjuntos posteriores de variables cuando volvemos atrâs sobre una opciôn 
anterior que no invalida el éxito posterior. 

La büsqueda local en problemas de satisfacciôn de restricciones se popularizô con el 
trabajo de Kirkpatrick et al. (1983) sobre el temple simulado (véase el Capitulo 4), am- 
pliamente utilizado para problemas de programaciôn. El primero que propuso la heuris- 
tica de mmimo conflicto fue Gu (1989) y desarrollada independientemente por Minton 
et al. (1992). Sosie y Gu (1994) mostraron cômo podria aplicarse para resolver el pro- 
blema de 3.000.000 de reinas en menos de un minuto. El éxito asombroso de la büsque¬ 
da local, usando mmimos conflictos, sobre el problema de las n-reinas condujo a una nue- 
va estimaciôn de la naturaleza y predominio de problemas «fâciles» y «difïciles». Peter 
Cheeseman et al. (1991) exploraron la dificultad de los PSRs generados aleatoriamente 
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y descubrieron que casi todos estos problemas son trivialmente faciles o no tienen ningu- 
na solucion. Solo si los parâmetros del generador del problema se ponen en un cierto ran- 
go limitado, dentro del cual aproximadamente la mitad de los problemas son resolubles, 
encontramos casos de problemas «difîciles». Hablamos de este fenomeno en el Capitulo 7. 

El trabajo que relaciona la estructura y la complejidad de los PSRs proviene de Freu- 
der (1985), quien mostro que la büsqueda sobre ârboles arco-consistentes trabaja sin nin- 
guna vuelta atrâs. Un resultado similar, con extensiones a hipergrafos aciclicos, fue 
desarrollado en la comunidad de base de datos (Beeri et al. 1983). Desde que esos tra- 
bajos fueron publicados, hubo mucho progreso en el desarrollo de mas resultados ge¬ 
nerales que relacionan la complejidad de resolver un PSR con la estructura de su grafo 
de restricciones. La nocion de anchura del ârbol fue introducida por los teoricos de gra- 
fos Robertson y Seymour (1986). Dechter y Pearl (1987, 1989), construyendo sobre el 
trabajo de Freuder, aplicaron la misma nocion (que ellos llamaron la anchura induci- 
da) a problemas de satisfaccion de restricciones y desarrollaron la aproximacion de des- 
composicion en ârbol esbozado en la Seccion 5.4. Usando este trabajo y sobre resultados 
de teoria de base de datos, Gottlob et al. (1999a, 1999b) desarrollaron una nocion, an¬ 
chura del hiperârbol, basada en la caracterizacion del PSR como un hipergrafo. Ade- 
mâs mostraron que cualquier PSR con la anchura de hiperârbol w puede resolverse en 
tiempo 0(n w + 1 log n) y que la anchura de hiperârbol subsume todas las medidas de «an¬ 
chura» (antes definidas) en el sentido de que hay casos donde la anchura de hiperârbol 
estâ acotada y las otras medidas no estân acotadas. 

Hay varias buenas revisiones de técnicas de PSRs, incluyendo la de Kumar (1992), 
Dechter y Frost (1999), y Bartak (2001); y la enciclopedia de articulos de Dechter 
(1992) y Mackworth (1992). Pearson y Jeavons (1997) contemplan clases manejables 
de PSRs, cubriendo tanto métodos de descomposicion estructurales como métodos que 
confîan en las propiedades de los dominios o restricciones. Kondrak y van Beek (1997) 
dan una révision analitica de algoritmos de büsqueda con vuelta atrâs, y Bacchus y van 
Run (1995) dan una révision mâs empirica. Los textos de Tsang (1993) y de Marriott y 
Stuckey (1998) entran en mâs profundidad que la realizada en este capitulo. Varias apli- 
caciones interesantes se describen en la coleccion editada por Freuder y Mackworth 
(1994). Los trabajos sobre satisfaccion de restricciones aparecen con regularidad en la 
revista Artificial Intelligence y en la revista especializada Constraints. La primera con- 
ferencia local es la International Conférence on Principles and Practice of Constraint 
Programming, amenudo llamada CP. 



EJERCICIOS 

5.1 Defina con sus propias palabras los términos problema de satisfaccion de restric¬ 
ciones, restriccion, büsqueda con vuelta atrâs, consistencia de arco, salto atrâs y mini- 
mos conflictos. 


5.2 ^Cuântas soluciones hay para el problema que colorea el mapa de la Figura 5.1? 

5.3 Explique por qué es una buena heuristica el elegir la variable que estâ mâs res- 
tringida, en lugar del valor que estâ menos restringido en una büsqueda de PSR. 
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5.4 Considéré el problema de construir (no resol ver) crucigramas 5 : prueba de palabras 
en una rejilla rectangular. La rejilla, dada como parte del problema, especifica qué cua- 
drados son en blanco y cuâles sombreados. Asuma que se proporciona una lista de pa¬ 
labras (es decir, un diccionario) y que la tarea es llenar los cuadrados en blanco usando 
cualquier subconjunto de la lista. Formule este problema, con précision, de dos modos: 

a) Como un problema general de büsqueda. Elija un algoritmo de büsqueda apro- 
piado, y especifique una funcion heuristica, si piensa que es necesaria. / ; Es me- 
jor rellenar con una letra o una palabra a la vez? 

b) Como un problema de satisfaccion de restricciones /dcbcnan las variables ser 
palabras o letras? 

/ ; Qué formulacion piensa que sera mejor? / ; Por qué? 


PLANIFICACION EN 
EL PLANO 


PLANIFICACION DE 
CLASES 


5.5 Dé formulaciones précisas para cada uno de los siguientes problemas de satisfac¬ 
cion de restricciones: 

a) Planificaciôn en el piano rectilineo: encuentre lugares no solapados en un rec- 
tângulo grande para varios rectângulos mas pequenos. 

b) Programaciôn de clases: Hay un nümero fijo de profesores y aulas, una lista 
de clases, y una lista de huecos posibles para las clases. Cada profesor tiene un 
conjunto de clases que él o ella pueden ensenar. 



5.6 Resuelva a mano el problema criptoaritmético de la Figura 5.2, usando el retro- 
ceso, comprobacion hacia delante, y las heuristicas MVR y la del valor menos res- 
tringido. 

5.7 La Figura 5.5 prueba varios algoritmos sobre el problema de las n-reinas. Intente 
estos mismos algoritmos sobre problemas de coloreo de mapas generados aleatoriamente 
como sigue: disperse n puntos sobre el cuadrado unidad; seleccionando un punto X al 
azar, una X con una linea recta al punto mas cercano Y tal que X no esta ya relacionado 
con F y la linea no cruce ninguna otra linea; repita el paso anterior hasta que no haya 
mas uniones posibles. Construya la tabla de funcionamiento para el n mas grande que 
pueda manejar, usando tanto colores d = 4 como d — 3. Comente sus resultados. 

5.8 Utilice el algoritmo AC-3 para mostrar que la consistencia de arco es capaz de des- 
cubrir la inconsistencia de la asignacion parcial {AO = rojo, V — azul } para el proble¬ 
ma de la Figura 5.1. 

5.9 / ; Cuâl es la complejidad, en el caso peor, al ejecutar AC-3 sobre un PSR estructu- 
rado por ârbol? 

5.10 AC-3 vuelve a poner sobre la cola cada arco (X k , X t ) siempre que algûn valor sea 
suprimido del dominio de X t , aunque cada valor de X k sea consistente con los valores restan¬ 
tes de X r Suponga que, para cada arco (X k , X ( ), guardamos el nümero de valores restantes 
de Xj que son consistentes con cada valor de X k . Explique como actualizar estos nümeros 
de manera eficiente y muestre que la consistencia de arco puede hacerse en tiempo total 
0(n 2 d 2 ). 


5 Ginsberg et al. (1990) hablan de varios métodos para construir crucigramas. Littman et al. (1999) abordan el pro¬ 
blema mâs diffcil: resolverlos. 
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5.11 Muestre como una restriccion ternaria simple como «A + B = C» puede trans- 
formarse en très restricciones binarias usando una variable auxiliar. Puede suponer do- 
minios finitos. ( Consejo : considéré una nueva variable que tome valores que son pares 
de otros valores, y considéré que las restricciones como «X es el primer elemento del 
par 7».) Después, muestre como las restricciones con mas de très variables pueden tra- 
tarse de modo similar. Finalmente, muestre como las restricciones con una sola varia¬ 
ble pueden eliminarse cambiando los dominios de las variables. Esto compléta la 
demostraciôn de que cualquier PSR puede transformarse en un PSR con restricciones 
binarias. 

5.12 Suponga que un grafo tiene un ciclo de corte de no mas de k nodos. Describa un 
algoritmo simple para encontrar un ciclo de corte mmimo cuyo tiempo de ejecuciôn no 
sea mucho mas que 0(n k ) para un PSR con n variables. Busqué en la literatura métodos 
para encontrar, aproximadamente, el ciclo de corte minimo en tiempo polinomial en el 
tamano del corte. /La existencia de taies algoritmos hacen prâctico al método de ciclo 
de corte? 

5.13 Considéré el siguiente puzle lôgico: en cinco casas, cada una con un color dife- 
rente, viven cinco personas de nacionalidades diferentes, cada una de las cuales prefie- 
re una marca diferente de cigarrillos, una bebida diferente, y un animal doméstico 
diferente. Considerando los hechos siguientes, la pregunta para contestar es «/ clondc vive 
Zébra, y en qué casa beben ellos el agua?» 

El inglés vive en la casa roja. 

El espanol posee el perro. 

El nomego vive en la primera casa a la izquierda. 

Los Kools son fumados en la casa amarilla. 

El hombre que fuma Chesterfields vive en la casa al lado del hombre con el zorro. 

El nomego vive al lado de la casa azul. 

El fumador de Winston posee caracoles. 

El fumador de Lucky Strike bebe zumo de naranja. 

El ucraniano bebe el té. 

El japonés fuma los Parliaments. 

Los Kools son fumados en la casa al lado de la casa donde se guarda el caballo. 

El café es bebido en la casa verde. 

La casa verde esta inmediatamente a la derecha (su derecha) de la casa de color 

marfil. 

La leche es bebida en la casa del medio. 

Discuta diferentes representaciones de este problema como un PSR. / Por qué preferirfa 
una representaciôn sobre otra? 







Büsqueda entre 
adversarios 



Donde examinaremos los problemas que surgen cuando tratamos de planear en 
un mundo donde otros agentes planean contra nosotros. 


6.1 Juegos 


En el Capftulo 2 se introdujeron los entornos multiagente, en los cuales cualquier 
agente tendra que considerar las acciones de otros agentes y como afectan a su propio 
bienestar. La imprevisibilidad de estos otros agentes puede introducir muchas posibles 
contingencias en el proceso de resolucion de problemas del agente, como se discutio 
en el Capltulo 3. En el Capltulo 2 también se introdujo la diferencia entre entornos mul¬ 
tiagente coopératives y competitivos. Los entornos competitivos, en los cuales los 
objetivos del agente estân en conflicto, dan ocasion a problemas de büsqueda entre 
juegos adversarios, a menudo conocidos como juegos. 

La teoria matemâtica de juegos, una rama de la Economfa, ve a cualquier entomo 
multiagente como un juego a condicion de que el impacto de cada agente sobre los de- 
mâs sea «significativo», sin tener en cuenta si los agentes son cooperativos o competi¬ 
tivos 1 . En IA, «los juegos» son, por lo general, una clase mas especializada (que los 
teoricos de juegos llaman juegos de suma cero, de dos jugadores, por turnos, determi- 
nista, de informaciôn perfecta). En nuestra terminologia, significan entornos determi- 
nistas, totalmente observables en los cuales hay dos agentes cuyas acciones deben 
altemar y en los que los valores utilidad, al final de juego, son siempre iguales y opues- 
tos. Por ejemplo, si un jugador gana un juego de ajedrez ( +1), el otro jugador necesa- 


JUEGOS DE SUMA 
CERO 


INFORMACION 

PERFECTA 


Los entornos con muchos agentes se ven mejor como entornos econômicos mâs que como juegos. 
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INFORMACION 

IMPERFECTA 


riamente pierde (—1). Esta oposicion entre las funciones de utilidad de los agentes hace 
la situaciôn entre adversarios. Consideraremos brevemente en este capltulo juegos mul- 
ti-jugador, juegos de suma no cero, y juegos estocâsticos, pero aplazaremos hasta el Ca- 
pltulo 17 la discusion de la teoria de juegos apropiada. 

Los juegos han ocupado las facultades intelectuales de la gente (a veces a un grado 
alarmante) mientras ha existido la civilizacion. Para los investigadores de IA, la natura- 
leza abstracta de los juegos los hacen un tema atractivo a estudiar. El estado de un jue- 
go es fâcil de representar, y los agentes estân restringidos, por lo general, a un pequeno 
numéro de acciones cuyos resultados estân definidos por réglas précisas. Los juegos fl- 
sicos, como croquet y hockey sobre hielo, tienen descripciones mucho mas complica- 
das, una variedad mucho mas grande de acciones posibles, y réglas bastante imprecisas 
que definen la legalidad de las acciones. A excepciôn del fütbol de robots, estos juegos 
fïsicos no han tenido mucho interés en la comunidad de IA. 

El jugar a juegos fue una de las primeras tareas emprendidas en IA. Hacia 1950, casi 
tan pronto como los computadores se hicieron programables, el ajedrez fue abordado por 
Konrad Zuse (el inventer del primer computador programable y del primer lenguaje de pro- 
gramacion), por Claude Shannon (el inventer de la teoria de information), por Norbert Wie¬ 
ner (el creador de la teoria de control modema), y por Alan Turing. Desde enfonces, hubo 
un progreso continuo en el nivel de juego, hasta tal punto que las mâquinas han superado 
a la gente en las damas y en Otelo, han derrotado a campeones humanos (aunque no siem- 
pre) en ajedrez y backgammon, y son competitivos en muchos otros juegos. La exception 
principal es Go, en el que los computadores funcionan a nivel aficionado. 

Los juegos, a diferencia de la mayor parte de los problemas de juguete estudiados 
en el Capitulo 3, son interesantes porque son demasiado difîciles para resolverlos. Por 
ejemplo, el ajedrez tiene un factor de ramification promedio de aproximadamente 35, 
y los juegos a menudo van a 50 movimientos por cada jugador, enfonces el ârbol de büs- 
queda tiene aproximadamente 35 100 o 10 154 nodos (aunque el grafo de büsqueda tenga 
«solo» aproximadamente 10 40 nodos distintos). Por lo tanto, los juegos, como el mun- 
do real, requieren la capacidad de tomar alguna decision cuando es infactible calcular 
la decision ôptima. Los juegos también castigan la ineficiencia con severidad. Mientras 
que una implémentation de la büsqueda A* que sea medio eficiente costarâ simplemente 
dos veces mas para ejecutarse por completo, un programa de ajedrez que sea medio efi¬ 
ciente en la utilizacion de su tiempo disponible, probablemente tendra que descartarse 
si no intervienen otros factores. La investigation en juegos ha generado, por lo tanto, va¬ 
rias ideas interesantes sobre como hacer uso, lo mejor posible, del tiempo. 

Comenzamos con una définition del movimiento optimo y un algoritmo para en- 
contrarlo. Veremos técnicas para elegir un movimiento bueno cuando el tiempo es li- 
mitado. La poda nos peimite ignorar partes del ârbol de büsqueda que no marcan 
ninguna diferencia para obtener la option final, y las funciones de évaluation heuris- 
ticas nos permiten aproximar la utilidad verdadera de un estado sin hacer una büsque¬ 
da compléta. La Section 6.5 habla de juegos como el backgammon que incluyen un 
elemento de posibilidad; también hablamos del bridge, que incluye elementos de in¬ 
formation imperfecta al no ser visibles todas las carias a cada jugador. Linalmente, ve¬ 
remos como se desenvuelven los programas de juegos contra la oposicion humana y las 
direcciones para el desarrollo futuro. 
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6.2 Decisiones optimas en juegos 


Consideraremos juegos con dos jugadores, que llamaremos max y min por motivos que 
pronto se harân évidentes, max mueve primero, y luego mueven por turno hasta que el 
juego se termina. Al final de juego, se conceden puntos al jugador ganador y penaliza- 
ciones al perdedor. Un juego puede definirse formalmente como una clase de problemas 
de büsqueda con los componentes siguientes: 


TEST TERMINAL 


ÂRBOL DE JUEGOS 


• El estado inicial, que incluye la posiciôn del tablero e identifica al jugador que 
mueve. 

• Una funciôn sucesor, que devuelve una lista de pares ( movimiento, estado ), in- 
dicando un movimiento legal y el estado que résulta. 

• Un test terminal, que détermina cuândo se termina el juego. A los estados don- 
de el juego se ha terminado se les llaman estados terminales. 

• Una funciôn utilidad (también llamada funciôn objetivo o funciôn de rentabili- 
dad), que da un valor numérico a los estados terminales. En el ajedrez, el resulta- 
do es un triunfo, pérdida, o empâte, con valores +1, — 1 o 0. Algunos juegos tienen 
una variedad mas amplia de resultados posibles: las rentabilidades en el back- 
gammon se extienden desde +192 a —192. Este capltulo trata principalmente jue¬ 
gos de suma cero, aunque mencionemos brevemente juegos con «suma no cero». 

El estado inicial y los movimientos legales para cada lado definen el ârbol de juegos. 
La Figura 6.1 muestra la parte del ârbol de juegos para el tic-tac-toe (très en raya). Des¬ 
de el estado inicial, max tiene nueve movimientos posibles. El juego alterna entre la co- 
locaciôn de una X para max y la colocaciôn de un O para min, hasta que alcancemos 
nodos hoja correspondientes a estados terminales, de modo que un jugador tenga très 
en raya o todos los cuadrados estén llenos. El nümero sobre cada nodo hoja indica el va¬ 
lor de utilidad del estado terminal desde el punto de vista de max; se supone que los va¬ 
lores altos son buenos para max y malos para min (por eso los nombres de los jugadores). 
Este trabajo de MAX al usar el ârbol de büsqueda (en particular la utilidad de estados ter¬ 
minales) détermina el mejor movimiento. 


Estrategias optimas 

En un problema de büsqueda normal, la soluciôn ôptima séria una secuencia de movi¬ 
mientos que conducen a un estado objetivo (un estado terminal que es ganador). En un 
juego, por otra parte, min tiene algo que decir sobre ello. Max por lo tanto debe encon- 
estrategia trar una estrategia contingente, que especifica el movimiento de max en el estado ini¬ 

cial, después los movimientos de MAX en los estados que resultan de cada respuesta 
posible de min, después los movimientos de max en los estados que resultan de cada res¬ 
puesta posible de min de los anteriores movimientos, etcétera. Hablando de forma apro- 
ximada, una estrategia ôptima conduce a resultados al menos tan buenos como cualquier 
otra estrategia cuando uno juega con un oponente infalible. Comenzaremos mostrando 
como encontrar esta estrategia ôptima, aunque serâ infactible, para max, al calcularla en 
juegos mâs complejos que tic-tac-toe. 
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CAPA 


VALOR MINIMAX 


MAX (X) 

MIN (o) 

MAX (x) 

MIN (o) 



TERMINAL 


Utilidad 



+1 


Figura 6.1 Un ârbol (parcial) de büsqueda para el juego de tic-tac-toe. El nodo de arriba es el es- 
tado inicial, y MAX mueve primero, colocando un X en un cuadrado vacio. Mostramos la parte del 
ârbol de busqueda, con movimientos altemados por min (O) y MAX, hasta que finalmente alcance- 
mos estados terminales, en los cuales podemos asignar utilidades segün las réglas del juego. 


Incluso un juego simple como tic-tac-toe es demasiado complejo para dibujar el âr¬ 
bol de juegos entero, por tanto cambiemos al juego trivial de la Figura 6.2. Los movi¬ 
mientos posibles para max, en el nodo ralz, se etiquetan por a v a 2 , y a 3 . Las respuestas 
posibles a a v para min, son b v b 2 , b v etc. Este juego particular finaliza después de un 
movimiento para max y min. (En el lenguaje de juegos, decimos que este ârbol es un mo- 
vimiento en profundidad, que consiste en dos medios movimientos, cada uno de los cua¬ 
les se llama capa.) Las utilidades de los estados terminales en este juego varia desde dos 
a 14. 

Considerando un ârbol de juegos, la estrategia optima puede determinarse exami- 
nando el valor minimax de cada nodo, que escribimos como el V A L o R - M i \ï M A x ( / / ). El 
valor minimax de un nodo es la utilidad (para max) de estar en el estado correspondiente, 
asumiendo que ambos jugadores juegan ôptimamente desde alli al final del juego. Ob- 
viamente, el valor minimax de un estado terminal es solamente su utilidad. Ademâs, con¬ 
siderando una opciôn, max preferirâ moverse a un estado de valor mâximo, mientras que 
min prefiere un estado de valor minimo. Entonces tenemos lo siguiente: 


V alor-Minimax(u) = < 


Utilidad(«) 

maX s e Sucesores(n) VALOR-MlNIMAX(s) 
min, e Sucesoresw Valor-Minimax(s) 


si n es un estado terminal 
si n es un estado max 
si n es un estado min 
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DECISION MINIMAX 


ALGORITMO MINIMAX 


RETROCEDER 



Figura 6.2 Un ârbol de juegos de dos capas. Los nodos A son «nodos MAX», en los que le toca 
mover a MAX, y los nodos V son «nodos min». Los nodos terminales muestran los valores de uti- 
lidad para MAX; los otros nodos son etiquetados por sus valores minimax. El mejor movimiento de 
MAX en la raiz es a v porque conduce al sucesor con el valor minimax mas alto, y la mejor respuesta 
de min es h,, porque conduce al sucesor con el valor minimax mas bajo. 


Apliquemos estas definiciones al ârbol de juegos de la Figura 6.2. Los nodos termi¬ 
nales se etiquetan por sus valores de utilidad. El primer nodo de min, etiquetado B, tie- 
ne très sucesores con valores 3, 12 y 8, enfonces su valor minimax es 3. Del mismo modo, 
los otros dos nodos de min tienen un valor minimax de 2. El nodo raiz es un nodo max; 
sus sucesores tienen valores minimax de 3, 2 y 2; enfonces tiene un valor minimax de 3. 
Podemos identificar también la decision minimax en la raiz: la accion a ] es la opcion 
ôptima para max porque conduce al sucesor con el valor minimax mas alto. 

Esta definicion de juego ôptimo para max supone que min también juega optimamente 
(maximiza los resultados del caso-peor para max). ; Y si min no juega optimamente? En¬ 
fonces es fâcil demostrar (Ejercicio 6.2) que max lo harâ aün mejor. Puede haber otras 
estrategias contra oponentes subôptimos que lo hagan mejor que la estrategia minimax; 
pero estas estrategias necesariamente lo hacen peor contra oponentes ôptimos. 


El algoritmo minimax 

El algoritmo minimax (Figura 6.3) calcula la decision minimax del estado actual. Usa 
un câlculo simple récurrente de los valores minimax de cada estado sucesor, directamente 
implementando las ecuaciones de la definicion. La recursion avanza hacia las hojas del 
ârbol, y entonces los valores minimax retroceden por el ârbol cuando la recursion se va 
deshaciendo. Por ejemplo, en la Figura 6.2, el algoritmo primero va hacia abajo a los 
très nodos izquierdos, y utiliza la funciôn Utilidad para descubrir que sus valores son 
3, 12 y 8 respectivamente. Entonces toma el minirno de estos valores, 3, y lo devuelve 
como el valor del nodo B. Un proceso similar devuelve hacia arriba el valor de 2 para C 
y 2 para D. Finalmente, tomamos el mâximo de 3, 2 y 2 para conseguir el valor de 3 para 
el nodo de raiz. 

El algoritmo minimax realiza una exploraciôn primero en profundidad compléta del 
ârbol de juegos. Si la profundidad mâxima del ârbol es m, y hay b movimientos legales 
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funciôn Dec is iôn-Mini m \x(c s tado) devuelve una acciôn 
variables de entrada: estado, estado actual del juego 

v <— MAX-VALOR(eirarfo) 

devolver la acciôn de SUCESORESlestacfo) con valor v 


funciôn M a x- V a lo r ( estado) devuelve un valor utilidad 
si TEST-TERMiNAL(«tof/o) enfonces devolver UïiLiDAD(estaüfo) 

V < -oo 

para un 5 en SucESOREs(e.çftzrfo) hacer 
v <— Max(v, MiN-VALOR(,s)) 

devolver v 


funciôn M a x- V a [ .0 r ( estado ) devuelve un valor utilidad 
si Test-Term i'iAidestado) enfonces devolver \iiwtnkn(esiado) 

v *— 00 

para un 5 en SucESOREs(e,sfflÉfo) hacer 
v *— Min(v, MAX-VALOR(i)) 

devolver v 


Figura 6.3 Un algoritmo para el câlculo de decisiones minimax. Devuelve la acciôn correspon- 
diente al movimiento mejor posible, es decir, el movimiento que conduce al resultado con la me- 
jor utilidad, conforme al axioma que el oponente juega para minimizar la utilidad. Las funciones 
Valor-Max y el Valor-Min pasan por el ârbol de juegos entero, por todos los caminos hacia las 
hojas, para determinar el valor que le llega a un estado. 


en cada punto, enfonces la complejidad en tiempo del algoritmo minimax es 0(b m ). La 
complejidad en espacio es 0(bm ) para un algoritmo que genere todos los sucesores a la 
vez, o 0{m ) para un algoritmo que genere los sucesores uno por uno (véase la pagina 86). 
Para juegos reales, desde luego, los costos de tiempo son totalmente poco prâcticos, pero 
este algoritmo sirve como base para el anâlisis matemâtico de juegos y para algoritmos 
mas prâcticos. 


Decisiones ôptimas en juegos multi-jugador 

Muchos juegos populares permiten mas de dos jugadores. Examinemos como obtener una 
extension de la idea minimax a juegos multi-jugador. Esto es sencillo desde el punto de 
vista técnico, pero proporciona algunas nuevas cuestiones conceptuales interesantes. 

Primero, tenemos que sustituir el valor para cada nodo con un vector de valores. Por 
ejemplo, en un juego de très jugadores con jugadores A, B y C, un vector (v A , v B , v c ) aso- 
ciado con cada nodo. Para los estados terminales, este vector darâ la utilidad del estado 
desde el punto de vista de cada jugador. (En dos jugadores, en juegos de suma cero, el 
vector de dos elementos puede reducirse a un valor porque los valores son siempre opues- 
tos.) El camino mas simple de implementarlo es hacer que la funciôn Utilidad devuel- 
va un vector de utilidades. 
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Ahora tenemos que considerar los estados no terminales. Consideremos el nodo mar- 
cado con X en el ârbol de juegos de la Figura 6.4. En ese estado, el jugador C elige qué 
hacer. Las dos opciones conducen a estados terminales con el vector de utilidad (v A = 1, 
v B = 2, v c = 6) y (v, = 4,v b = 2, v c = 3). Como 6 es mas grande que 3, C deberia elegir- 
lo como primer movimiento. Esto significa que si se alcanza el estado X, el movimien- 
to siguiente conducirâ a un estado terminal con utilidades {v A = 1, v B = 2, v c = 6). De ahi, 
que el valor que le llega a X es este vector. En general, el valor hacia atrâs de un nodo n 
es el vector de utilidad de cualquier sucesor que tiene el valor mas alto para el jugador 
que elige en n. 

Alguien que juega juegos multi-jugador, como Diplomacy™, râpidamente se da cuen- 
ta de que hay muchas mas posibilidades que en los juegos de dos jugadores. Los juegos 
alianzas multi-jugador, por lo general, implican alianzas, formales o informales, entre los juga¬ 

dores. Se hacen y se rompen las alianzas conforme avanza el juego. / Como debemos en- 
tender tal comportamiento? /Las alianzas son una consecuencia natural de estrategias 
optimas para cada jugador en un juego multi-jugador? Résulta que pueden ser. Por ejem- 
plo suponga que Ay B estân en posiciones débiles y C esta en una posicion mas fuerte. 
Entonces, a menudo, es optimo tanto para A como para B atacar a C mas que el uno al 
otro, por temor a que C los destruya. De esta manera, la colaboracion surge del compor¬ 
tamiento puramente egoista. Desde luego, tan pronto como C se débilita bajo el ataque 
conjunto, la alianza pierde su valor, y Ao B podrfan violar el acuerdo. En algunos casos, 
las alianzas explicitas solamente concretan lo que habrfa pasado de todos modos. En otro 
caso hay un estigma social a la rotura de una alianza, asi que los jugadores deben equili- 
brar la ventaja inmediata de romper una alianza contra la desventaja a largo plazo de ser 
percibido como poco fiable. Véase la Seccion 17.6 para estas complicaciones. 

Si el juego no es de suma cero, la colaboracion puede ocurrir también con solo dos 
jugadores. Suponga, por ejemplo, que hay un estado terminal con utilidades {v A = 1.000, 
v B = 1.000), y que 1.000 es la utilidad mas alta posible para cada jugador. Entonces la 
estrategia optima para ambos jugadores es hacer todo lo posible por alcanzar este esta¬ 
do (es decir los jugadores cooperarân automâticamente para conseguir un objetivo mu- 
tuamente deseable). 






188 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


6.3 Poda alfa-beta 


El problema de la büsqueda minimax es que el numéro de estados que tiene que exa- 
minar es exponencial en el nümero de movimientos. Lamentablemente no podemos eli- 
minar el exponente, pero podemos dividirlo, con eficacia, en la mitad. La jugada es que 
es posible calcular la decision minimax correcta sin mirar todos los nodos en el ârbol de 
juegos. Es decir podemos tomar prestada la idea de podar del Capltulo 4 a fin de 








Figura 6.5 Etapas en el câlculo de la decision optima para el ârbol de juegos de la Figura 6.2. En 
cada punto, mostramos el rango de valores posibles para cada nodo. (a) La primera hoja debajo de 
B tiene el valor 3. De ahi B , que es un nodo min, tiene un valor de como mâximo 3. (b) La segun- 
da hoja debajo de B tiene un valor de 12; min evitaria este movimiento, entonces el valor de B es 
todavia como mâximo 3. (c) La tercera hoja debajo de B tiene un valor de 8; hemos visto a todos 
los sucesores de B, entonces el valor de B es exactamente 3. Ahora, podemos deducir que el valor 
de la raiz es al menos 3, porque MAX tiene una opcion digna de 3 en la raiz. (d) La primera hoja de¬ 
bajo de C tiene el valor 2. De ahi, C, que es un nodo min, tiene un valor de como mâximo 2. Pero 
sabemos que B vale 3, entonces MAX nunca elegiria C. Por lo tanto, no hay ninguna razon en mi¬ 
rar a los otros sucesores de C. Este es un ejemplo de la poda de alfa-beta. (e) La primera hoja de¬ 
bajo de D tiene el valor 14, entonces D vale como mâximo 14. Este es todavia mâs alto que la mejor 
altemativa de MAX (es decir, 3), entonces tenemos que seguir explorando a los sucesores de D. Note 
también que ahora tenemos limites sobre todos los sucesores de la raiz, entonces el valor de la raiz 
es también como mâximo 14. (f) El segundo sucesor de D vale 5, asi que otra vez tenemos que se¬ 
guir explorando. El tercer sucesor vale 2, asi que ahora D vale exactamente 2. La decision de MAX 
en la raiz es moverse a B , dando un valor de 3. 
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eliminar partes grandes del ârbol. A la técnica que examinaremos se le llama poda alfa- 
beta. Cuando lo aplicamos a un ârbol minimax estândar, devuelve el mismo movi- 
miento que devolverfa minimax, ya que podar las ramas no puede influir, posiblemente, 
en la decision final. 

Consideremos otra vez el ârbol de juegos de dos capas de la Figura 6.2. Vamos a rea- 
lizar el câlculo de la decision optima una vez mâs, esta vez prestando atenciôn a lo que 
sabemos en cada punto del proceso. En la Figura 6.5 se explican los pasos. El resulta- 
do es que podemos identificar la decision minimax sin evaluar dos de los nodos hoja. 

Otro modo de verlo es como una simplificacion de la formula Valor-Minimax. Los 
dos sucesores no evaluados del nodo C de la Figura 6.5 tienen valores x e y, y sea z el 
minirno entre x e y. El valor del nodo rafz es 

Minimax-VALUE( ra/z) = max(min(3, 12, 8),min(2, x, y), min(14, 5, 2)) 

= max(3, min(2, x, y) ,2) 

= max(3, z, 2) donde z < 2 
= 3 

En otras palabras, el valor de la raiz y de ahi la decision minimax son independientes de 
los valores de las hojas podadas x e y. 

La poda alfa-beta puede aplicarse a ârboles de cualquier profundidad, y, a menudo, 
es posible podar subârboles enteros. El principio general es: considéré un nodo n en el 
ârbol (véase la Figura 6.6), tal que el Jugador tiene una opcion de movimiento a ese nodo. 
Si el Jugador tiene una mejor selecciôn m en el nodo padre de n o en cualquier punto 
mâs lejano, enfonces n nunca serâ alcanzado en el juego actual. Una vez que hemos ave- 
riguado bastante sobre n (examinando a algunos de sus descendientes) para alcanzar esta 
conclusion, podemos podarlo. 

Recuerde que la büsqueda minimax es primero en profundidad, asi que en cualquier 
momento solamente tenemos que considerar los nodos a lo largo de un camino en el ârbol. 



Figura 6.6 Poda alfa-beta: el caso general. Si m es mejor que n para el Jugador, nunca iremos a n 
en el juego. 
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La poda alfa-beta consigue su nombre de los dos parâmetros que describen los limites 
sobre los valores hacia atrâs que aparecen a lo largo del camino: 

a = el valor de la mejor opciôn (es decir, valor mas alto) que hemos encontrado has- 
ta ahora en cualquier punto elegido a lo largo del camino para max. 

P = el valor de la mejor opciôn (es decir, valor mas bajo) que hemos encontrado has- 
ta ahora en cualquier punto elegido a lo largo del camino para min. 

La büsqueda alfa-beta actualiza el valor de oc y P segün se va recorriendo el ârbol y poda 
las ramas restantes en un nodo (es decir, termina la llamada récurrente) tan pronto como 
el valor del nodo actual es peor que el actual valor oc o P para max o min, respectivamente. 
La Figura 6.7 nos da el algoritmo completo. Animamos al lector a trazar su comporta- 
miento cuando lo aplicamos al ârbol de la Figura 6.5. 

La eficacia de la poda alfa-beta es muy dependiente del orden en el que se exami- 
nan los sucesores. Por ejemplo, en la Figura 6.5(e) y (f), podrfamos no podar ningün 


funciôn B üsqu eda-Ai . fa - B eta ( esiado ) devuelve una acciôn 
variables de entrada: estado, estado actual del juego 

v <— MAX-VALOR(estado, —+°°) 

devolver la acciôn de SucESOREs(estacfo) con valor v 


funciôn MAX-VALOR(estacfo,a, P) devuelve un valor utilidad 
variables de entrada: estado, estado actual del juego 

a, valor de la mejor alternativa para MAX a lo largo del camino a estado 
P, valor de la mejor alternativa para min a lo largo del camino a estado 

si Test-Tf.r m mkL(estado) entonces devolver \Ji\unAo{estado) 
v * - 00 

para a, s en SucESOREs(e.«atfo) hacer 
v <— Max(V, Min-Valor(s, oc, /?)) 

si v s p entonces devolver v 

oc <— MAX(a, v) 

devolver v 


funciôn MiN-VALOR(e,yfa<7o, a., P) devuelve un valor utilidad 
variables de entrada: estado, estado actual del juego 

a, valor de la mejor alternativa para MAX a lo largo del camino a estado 
P, valor de la mejor alternativa para min a lo largo del camino a estado 

si T est-Ter m ina \ieslado) entonces devolver \iiw onkn(esiado) 
v * —h 00 

para a, s en SucESOREs(e.«atfo) hacer 
v <— Min(v, Max-Valor(s, a, P)) 

si v < a entonces devolver v 

p v- MIN (P, V) 

devolver v 


Figura 6.7 El algoritmo de büsqueda alfa-beta. Notemos que estas rutinas son lo mismo que las 
rutinas de Minimax de la Figura 6.3, excepto las dos lineas Min-Valor y Max-Valor que man- 
tienen a. y P (y la forma de hacer pasar estos parâmetros). 
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sucesor de D si se hubieran generado primero los sucesores peores (desde el punto de 
vista de min). Si el tercer sucesor se hubiera generado primero, habriamos sido capaces 
de podar los otros dos. Esto sugiere que pudiera valer la pena tratar de examinar prime¬ 
ro los sucesores que probablemente serân los mejores. 

Si asumimos que esto puede hacerse 2 , résulta que alfa-beta tiene que examinar solo 
0(b dl2 ) nodos para escoger el mejor movimiento, en vez de O (b' 1 ) para minimax. Esto 
significa que el factor de ramificaciôn eficaz se hace \Zb en vez de b (para el ajedrez, 
seis en vez de 35). De otra manera, alfa-beta puede mirar hacia delante aproximadamente 
dos veces mas que minimax en la misma cantidad del tiempo. Si los sucesores se exa- 
minan en orden aleatorio mas que primero el mejor, el numéro total de nodos examina- 
dos sera aproximadamente 0(b 3dlA ) para un moderado b. Para el ajedrez, una funcion de 
ordenacion bastante sencilla (como intentar primero las capturas, luego las amenazas, 
luego mover hacia delante, y, por ültimo, los movimientos hacia atrâs) lo consiguen en 
aproximadamente un factor de dos del resultado 0(b dl2 ) del mejor caso. Anadir esque- 
mas dinâmicos que ordenan movimientos, como intentar primero los movimientos que 
fueron mejores la ültima vez, llegamos bastante cerca del limite teorico. 

En el Capitulo 3, vimos que los estados repetidos en el ârbol de büsqueda pueden 
causar un aumento exponencial del coste de büsqueda. En juegos, los estados repetidos 
transposiciones ocurren con frecuencia debido a transposiciones (permutaciones diferentes de la 
secuencia de movimientos que terminan en la misma posicion). Por ejemplo, si Blanco 
tiene un movimiento a x que puede ser contestado por Negro con /?, y un movimiento no 
relacionado a 2 del otro lado del tablero puede ser contestado por b 2 , enfonces las se- 
cuencias [a v b v a 2 , b 2 ] y [a v b 2 , a 2 , b x \ terminan en la misma posicion (como las per¬ 
mutaciones que comienzan con a 2 ). Vale la pena almacenar la evaluaciôn de esta posicion 
en una tabla hash la primera vez que se encuentre, de modo que no tuviéramos que vol- 
ver a calcularlo las siguientes veces. Tradicionalmente a la tabla hash de posiciones se 
le llama tabla de transposiciôn; es esencialmente idéntica a la lista cerrada en la Büs- 
queda-Grafos (pagina 93). La utilizacion de una tabla de transposiciones puede tener 
un efecto espectacular a veces, tanto como doblar la profundidad accesible de büsque¬ 
da en el ajedrez. Por otra parte, si evaluamos un millon de nodos por segundo, no es prâc- 
tico guardar todos ellos en la tabla de transposiciones. Se han utilizado varias estrategias 
para elegir los mas valiosos. 


TABLA DE 

TRANSPOSICIONES 


6.4 Decisiones en tiempo real imperfectas 


El algoritmo minimax généra el espacio de büsqueda entero, mientras que el algoritmo 
alfa-beta permite que podemos partes grandes de él. Sin embargo, alfa-beta todavia 
tiene que buscar en todos los caminos, hasta los estados terminales, para una parte del es¬ 
pacio de büsqueda. Esta profundidad no es, por lo general, prâctica porque los movimientos 
deben hacerse en una cantidad razonable de tiempo (tipicamente, unos minutos como mâ- 
ximo). El trabajo de Shannon en 1950, Programming a computer for play ing chess, pro- 


2 Obviamente, no puede hacerse; por otra parte jla funcion de ordenacion podria usarse para jugar un juego 
perfecto! 
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TEST-LIMITE 


CARACTERISTICAS 


puso un cambio: que los programas deberfan cortar la büsqueda antes y enfonces aplicar 
una funciôn de evaluaciôn heurîstica a los estados, convirtiendo, efectivamente, los no- 
dos no terminales en hojas terminales. En otras palabras, la sugerencia deberâ alterar mi- 
nimax o alfa-beta de dos formas: se sustituye la funciôn de utilidad por una funciôn de 
evaluaciôn heurîstica Eval, que da una estimaciôn de la utilidad de la posiciôn, y se sus¬ 
tituye el test-terminal por un test-limite que décidé cuândo aplicar Eval. 


Funciones de evaluaciôn 

Una funciôn de evaluaciôn devuelve una estimaciôn de la utilidad esperada de una po¬ 
siciôn dada, tal como hacen las funciones heuristicas del Capftulo 4 que devuelven una 
estimaciôn de la distancia al objetivo. La idea de una estimaciôn no era nueva cuando 
Shannon la propuso. Durante siglos, los jugadores de ajedrez (y aficionados de otros jue- 
gos) han desarrollado modos de juzgar el valor de una posiciôn, debido a que la gente 
es aün mas limitada, en cantidad de la büsqueda, que los programas de computador. 
Deberia estar claro que el funcionamiento de un programa de juegos es dependiente de 
la calidad de su funciôn de evaluaciôn. Una funciôn de evaluaciôn inexacta dirigirâ a un 
agente hacia posiciones que resultan estar perdidas. /Como disenamos funciones de eva¬ 
luaciôn buenas? 

Primero, la funciôn de evaluaciôn deberia ordenar los estados terminales del mismo 
modo que la funciôn de utilidad verdadera; por otra parte, un agente que la use podrfa 
seleccionar movimientos subôptimos aunque pueda ver delante el final del juego. Se- 
gundo, ;el câlculo no debe utilizar demasiado tiempo! (La funciôn de evaluaciôn podrfa 
llamar a la Decisiôn-Minimax como una subrutina y calcular el valor exacto de la po¬ 
siciôn, pero esto frustrarfa nuestro propôsito: ahorrar tiempo.) Tercero, para estados no 
terminales, la funciôn de evaluaciôn deberia estar fuertemente correlacionada con las po- 
sibilidades actuales de ganar. 

Uno podrfa preguntarse sobre la frase «las posibilidades de ganar». Después de 
todo, el ajedrez no es un juego de azar: sabemos el estado actual con certeza. Pero si la 
büsqueda debe cortarse en estados no terminales, entonces necesariamente el algoritmo 
sera incierto sobre los resultados finales de esos estados. Este tipo de incertidumbre esta 
inducida por limitaciones computacionales, mas que de informaciôn. Si consideramos 
la cantidad limitada de câlculo que se permiten a la funciôn de evaluaciôn cuando se apli- 
ca a un estado, lo mejor que se podrfa hacer es una conjetura sobre el resultado final. 

Hagamos esta idea mas concreta. La mayorîa de las funciones de evaluaciôn 
trabajan calculando varias caracteristicas del estado (por ejemplo, en el juego de aje¬ 
drez, el nümero de peones capturados por cada lado). Las caracteristicas, juntas, defi- 
nen varias categorîas o clases de equivalencia de estados: los estados en cada categorfa 
tienen los mismos valores para todas las caracteristicas. Cualquier categorfa dada, por 
lo general, tendra algunos estados que conducen a triunfos, algunos que conducen a em¬ 
pâtes, y algunos que conducen a pérdidas. La funciôn de evaluaciôn no sabe cuâl es cada 
estado, pero sf puede devolver un valor que refleje la proporciôn de estados con cada re¬ 
sultado. Por ejemplo, supongamos que nuestra experiencia sugiere que el 72 por ciento 
de los estados encontrados en la categorfa conduce a un triunfo (utilidad +1); 
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VALOR ESPERADO 


VALOR MATERIAL 


FUNCION PONDERADA 
LINEAL 


el 20 por ciento a una pérdida (— 1), y el 8 por ciento a un empâte (0). Enfonces una eva- 
luaciôn razonable de estados en la categoria es el valor medio ponderado o valor espe- 
rado: (0,72 X +1) + (0,20 X — 1) + (0,08 X 0) = 0,52. Enprincipio, el valor esperado 
se puede determinar para cada categoria, produciendo una funcion de evaluacion que tra- 
baja para cualquier estado. Mientras que con los estados terminales, la funcion de eva- 
luaciôn no tiene que devolver valores actuales esperados, la ordenaciôn de los estados 
es el mismo. 

En la prâctica, esta clase de anâlisis requiere demasiadas categorias y demasiada 
experiencia para estimar todas las probabilidades de ganar. En cambio, la mayoria de 
las funciones de evaluacion calculan las contribuciones numéricas de cada caracteris- 
tica y luego las combinaii para encontrar el valor total. Por ejemplo, los libres de aje- 
drez dan, de forma aproximada, el valor material para cada pieza: cada peôn vale 1, 
un caballo o el alfil valen 3, una torre 5, y la reina vale 9. Otras caracterfsticas como 
«la estructura buena del peôn» y «seguridad del rey» podrian valer la mitad de un peôn, 
por ejemplo. Estos valores de caracteristicas, entonces, simplemente se suman para 
obtener la evaluacion de la posicion. Una ventaja segura équivalente a un peôn da una 
probabilidad sustancial de ganar, y una ventaja segura équivalente a très peones deberia 
dar la casi Victoria, como se ilustra en la Figura 6.8(a). Matemâticamente, a esta clase 
de funcion de evaluacion se le llama funcion ponderada lineal, porque puede expre- 
sarse como 

ri 

Eval(s) = wj x (s) + w 2 f 2 (s) + ••■ + W n f n {s) = X wj\{s), 

i = 1 

donde cada w, es un peso y cada /' es una caracteristica de la posicion. Para el ajedrez, 
los / podrian ser los nümeros de cada clase de piezas sobre el tablera, y los vv ; podrian 
ser los valores de las piezas (1 para el peôn, 3 para el alfil, etc.). 



1 




1 



(a) Blanca mueve 


(b) Blanca mueve 


Figura 6.8 Dos posiciones ligeramente diferentes del ajedrez. En (a), negro tiene una ventaja de 
un caballo y dos peones y ganarâ el juego. En (b), negro perderâ después de que blanca capture la 
reina. 
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La suma de los valores de las caracteristicas parece razonable, pero de hecho implica 
un axioma muy fuerte: que la contribuciôn de cada caracteristica sea independiente de 
los valores de las otras caracteristicas. Por ejemplo, la asignaciôn del valor 3 a un alfil 
no utiliza el hecho de que el alfil es mas poderoso en la fase final, cuando tienen mucho 
espacio para maniobrar. Por esta razôn, los programas actuales para el ajedrez, y otros 
juegos, también utilizan combinaciones no lineales de caracteristicas. Por ejemplo, un 
par de affiles podria merecer mas la pena que dos veces el valor de un alfil, y un alfil 
merece mas la pena en la fase final que al principio. 

;E1 lector habrâ notado que las caracteristicas y los pesos no son parte de las réglas 
del ajedrez! Provienen, desde hace siglos, de la experiencia humana al jugar al ajedrez. 
Considerando la forma lineal de evaluaciôn, las caracteristicas y los pesos dan como re- 
sultado la mejor aproximaciôn a la ordenaciôn exacta de los estados segün su valor. En 
particular, la experiencia sugiere que una ventaja de mas de un punto probablemente gane 
el juego, si no intervienen otros factores; una ventaja de très puntos es suficiente para 
una Victoria. En juegos donde no esta disponible esta clase de experiencia, los pesos de 
la funcion de evaluaciôn pueden estimarse con las técnicas de aprendizaje del Capitulo 
18. La aplicaciôn de estas técnicas al ajedrez han confirmado que un alfil es, en efecto, 
como aproximadamente très peones. 


Corte de la büsqueda 

El siguiente paso es modificar la Busqueda-Alfa-Beta de modo que llame a la funcion 
heuristica Eval cuando se corte la büsqueda. En términos de implementaciôn, sustituimos 
las dos lineas de la Figura 6.7, que mencionan al Test-Terminal, con la linea siguiente: 

si TEST-CORTE(<?riüTtfo, profundidad) entonces devolver EvAL(estado) 

También debemos llevar la contabilidad de la profundidad de modo que la profundidad 
actual se incremente sobre cada llamada recursiva. La aproximaciôn mas sencilla para 
controlar la cantidad de büsqueda es poner un limite de profundidad fijo, de modo que 
TEST-CORTE(eriâri 0 , profundidad) devuelva verdadero para toda profundidad mayor que 
alguna profundidad fija d. (También debe devolver verdadero para todos los estados ter¬ 
minales, tal como hizo el Test-Terminal.) La profundidad d se elige de modo que la 
cantidad de tiempo usado no exceda de lo que permiten las réglas del juego. 

Una aproximaciôn mas robusta es aplicar profundidad iterativa, como se definiô en 
el Capitulo 3. Cuando el tiempo se agota, el programa devuelve el movimiento selec- 
cionado por la büsqueda compléta mas profunda. Sin embargo, estas aproximaciones pue¬ 
den conducir a errores debido a la naturaleza aproximada de la funcion de evaluaciôn. 
Considéré otra vez la funcion de evaluaciôn simple para el ajedrez basada en la ventaja 
del material. Suponga los programas de büsquedas al limite de profundidad, alcanzan- 
do la posiciôn de la Figura 6.8(b), donde Negro aventaja por un caballo y dos peones. 
Esto estaria representado por el valor heuristico del estado, declarando que el estado con- 
ducirâ probablemente a un triunfo de Negro. Pero en el siguiente movimiento de Blan- 
co captura a la reina de Negro. De ahi, que la posiciôn es realmente ganadora para Blanco, 
y que puede verse mirando una capa mas. 
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Obviamente, se necesita un test del limite mas sofisticado. La funciôn de evaluacion 
deberia aplicarse solo a posiciones que son estables (es decir, improbablemente expuestas 
a grandes oscilaciones en su valor en un futuro prôximo). En el ajedrez, por ejemplo, 
las posiciones en las cuales se pueden hacer capturas no son estables para una funciôn 
de evaluacion que solamente cuenta el material. Las posiciones no estables se pueden 
extender hasta que se alcancen posiciones estables. A esta büsqueda suplementaria se 
le llama büsqueda de estabilidad o de reposo; a veces se restringe a solo ciertos tipos 
de movimientos, como movimientos de captura, que resolverân râpidamente la incerti- 
dumbre en la posiciôn. 

El efecto horizonte es mas dificil de eliminar. Se produce cuando el programa 
afronta un movimiento, del oponente, que causa un dano serio e inévitable. Considéré 
el juego de ajedrez de la Figura 6.9. Negro aventaja en el material, pero si Blanco pue- 
de avanzar su peôn de la séptima fila a la octava, el peôn se convertira en una reina y 
crearâ un triunfo fâcil para Blanco. Negro puede prévenir este resultado en la capa 14 
dando jaque a la reina blanca con la torre, pero al final, inevitablemente el peôn se con¬ 
vertira en una reina. El problema con la büsqueda de profundidad fija es que se créé que 
esquivar estos movimientos evitan el movimiento de convertirse en reina, decimos que 
los movimientos de esquivar empujan el movimiento de convertirse en reina (inévitable) 
«sobre el horizonte de büsqueda» a un lugar donde no puede detectarse. 

Cuando las mejoras de hardware nos lleven a realizar büsquedas mas profundas, se 
espera que el efecto horizonte ocurra con menos frecuencia (las secuencias que tardan 
mucho tiempo son bastante raras). El uso de extensiones excepcionales también ha sido 
bastante eficaz para evitar el efecto horizonte sin anadir demasiado coste a la büsqueda. 
Una extension excepcional es un movimiento que es «claramente mejor» que todos los 
demâs en una posiciôn dada. Una büsqueda de extension excepcional puede ir mas alla 
del limite de profundidad normal sin incurrir mucho en el coste porque su factor de 
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Figura 6.9 El efecto horizonte. Una sérié de jaques de la torre negra fuerza al movimiento de con¬ 
vertirse en reina (inévitable) de Blanco «sobre el horizonte» y hace que esta posiciôn parezca un 
triunfo para Negro, cuando realmente es un triunfo para Blanco. 
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ramificaciôn es 1. (Se puede pensar que la büsqueda de estabilidad es una variante de 
extensiones excepcionales.) En la Figura 6.9, una büsqueda de extension excepcional en- 
contrarâ el movimiento de convertirse en reina, a condiciôn de que los movimientos de 
jaque de Negro y los movimientos del rey blanco puedan identificarse como «claramente 
mejores» que las alternativas. 

Hasta ahora hemos hablado del corte de la büsqueda a un cierto nivel y que la poda 
alfa-beta, probablemente, no tiene ningün efecto sobre el resultado. Es también posible 
poda hacia delante hacer la poda hacia delante, en la que podamos inmediatamente algunos movimientos 
de un nodo. Claramente, la mayorfa de la gente que juega al ajedrez solo considéra unos 
pocos movimientos de cada posiciôn (al menos conscientemente). Lamentablemente, esta 
aproximaciôn es bastante peligrosa porque no hay ninguna garantia de que el mejor mo¬ 
vimiento no sea podado. Esto puede ser desastroso aplicado cerca de la raiz, porque en¬ 
fonces a menudo el programa omitirâ algunos movimientos «évidentes». La poda hacia 
delante puede usarse en situaciones especiales (por ejemplo, cuando dos movimientos 
son simétricos o équivalentes, solo consideramos uno) o para nodos profundos en el âr- 
bol de büsqueda. 

La combinaciôn de todas las técnicas descritas proporciona un programa que puede 
jugar al ajedrez loablemente (o a otros juegos). Asumamos que hemos implementado una 
funciôn de evaluacion para el ajedrez, un test del limite razonable con una büsqueda de 
estabilidad, y una tabla de transposiciones grande. También asumamos que, después de 
meses de intentas tediosos, podemos generar y evaluar alrededor de un millôn de nodos 
por segundo sobre los ültimos PCs, permitiéndonos buscar aproximadamente 200 millo- 
nes de nodos por movimiento bajo un control estândar del tiempo (très minutas por mo¬ 
vimiento). El factor de ramificaciôn para el ajedrez es aproximadamente 35, como media, 
y 35 5 son aproximadamente 50 millones, asi si usamos la büsqueda minimax podriamos 
mirar solo cinco capas. Aunque no sea incompetente, tal programa puede ser enganado 
fâcilmente por un jugador medio de ajedrez, el cual puede planear, de vez en cuando, seis 
u ocho capas. Con la büsqueda alfa-beta nos ponemos en aproximadamente 10 capas, y 
résulta un nivel experto del juego. La Secciôn 6.7 describe técnicas de poda adicionales 
que pueden ampliar la profundidad eficaz de büsqueda a aproximadamente 14 capas. Para 
alcanzar el nivel de gran maestro necesitariamos una funciôn de evaluacion ajustada y una 
base de datos grande de movimientos de apertura y movimientos finales ôptimos. No sé¬ 
ria malo tener un supercomputador para controlar este programa. 


6.5 Juegos que incluyen un elemento de posibilidad 


En la vida real, hay muchos acontecimientos imprévisibles externos que nos ponen en 
situaciones inesperadas. Muchos juegos reflejan esta imprevisibilidad con la inclusion 
de un elemento aleatorio, como el lanzamiento de dados. De esta manera, ellos nos dan 
un paso mas cercano a la realidad, y vale la pena ver como afecta al proceso de toma de 
decisiones. 

Backgammon es un juego tipico que combina la suerte y la habilidad. Se hacen ro- 
dar unos dados, al comienzo del turno de un jugador, para determinar los movimientos 
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legales. En la posicion backgammon de la Figura 6.10, por ejemplo, Blanco ha hecho 
rodar un 6-5, y tiene cuatro movimientos posibles. 

Aunque Blanco sabe cuâles son sus propios movimientos legales, no sabe lo que le 
va a salir a Negro con los dados y por eso no sabe cuâles serân sus movimientos lega¬ 
les. Esto significa que Blanco no puede construir un ârbol de juegos estândar de la for¬ 
ma que vimos en el ajedrez y tic-tac-toe. Un ârbol de juegos en el backgammon debe 
incluir nodos de posibilidad ademâs de los nodos max y min. En la Figura 6.11 se ro- 
dean con cfrculos los nodos de posibilidad. Las ramas que salen desde cada nodo posi¬ 
bilidad denotan las posibles tiradas, y cada una se étiqueta con la tirada y la posibilidad 
de que ocurra. Hay 36 resultados al hacer rodar dos dados, cada uno igualmente proba¬ 
ble; pero como un 6-5 es lo mismo que un 5-6, hay solo 21 resultado distintos. Los seis 
dobles(l-l a 6-6) tienen una posibilidad de 1/36, los otros 15 resultados distintos un 1/18 
cada uno. 

El siguiente paso es entender como se toman las decisiones correctas. Obviamen- 
te, todavia queremos escoger el movimiento que conduzca a la mejor posicion. Sin em¬ 
bargo, las posiciones no tienen valores minimax definidos. En cambio, podemos calcular 
el valor esperado, donde la expectativa se toma sobre todos los posibles resultados que 
podrian ocurrir. Este nos conduce a generalizar el valor minimax para juegos deter- 
ministas a un valor minimaxesperado para juegos con nodos de posibilidad. Los no¬ 
dos terminales y los max y min (para los que se conocen sus resultados) trabajan 
exactamente del mismo modo que antes; los nodos de posibilidad se evalüan tomando 


0 123456 789 10 11 12 



Figura 6.10 Una posicion tipica del backgammon. El objetivo del juego es mover todas las fichas 
del tablero. Blanco mueve a la derecha hacia 25, y los movimientos de Negro al contrario, hacia 0. 
Una ficha puede moverse a cualquier posicion a menos que haya varias piezas del oponente; si hay 
un oponente, es capturado y debe comenzar. En la posicion mostrada, Blanca ha sacado 6-5 y debe 
elegir entre cuatro movimientos legales: (5-10,5-11), (5-11,19-24), (5-10,10-16) y (5-11,11-16). 
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el promedio ponderado de los valores que se obtienen de todos los resultados posibles, 
es decir, 

Minimaxesperado(/?) = 

' Utilidad(«) si n es un nodo terminal 

mdLX seSucesores(n ) MIM MAX ES PER A DO(.V ) si H es Un nodo MAX 

min 5 e Sucesoresin) Minimaxesperado(.s') si n es un nodo min 

^ \seSucesores(n ) ^( 5 ) ' M i N i M A x hs per a do(s) si n es un nodo posibilidad 

donde la funcion sucesor para un nodo de posibilidad n simplemente aumenta el estado 
n con cada resultado posible para producir cada sucesor s, y P(s) es la probabilidad de 
que ocurra ese resultado. Estas ecuaciones pueden aplicarse recursivamente hasta la raiz 
del ârbol, como en minimax. Dejamos los detalles del algoritmo como un ejercicio. 

Evaluaciôn de la posiciôn en juegos con nodos de 
posibilidad 

Como con minimax, la aproximacion obvia es cortar la büsqueda en algün punto y apli- 
car una funcion de evaluaciôn a cada hoja. Uno podrfa pensar que las funciones de eva¬ 
luaciôn para juegos como backgammon deberfan ser como funciones de evaluaciôn para 
el ajedrez (solamente tienen que dar tanteos mas altos a mejores posiciones). Pero de 
hecho, la presencia de nodos de posibilidades significa que uno tiene que tener mas cui- 
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dado sobre la evaluacion de valores medios. La Figura 6.12 muestra lo que sucede: con 
una funcion de evaluacion que asigne valores [1,2,3,4] a las hojas, el movimiento A I es 
el mejor; con valores [1,20,30,400], el movimiento A 2 es el mejor. jDe ahi, que los pro- 
gramas se comportan de forma totalmente diferente si hacemos un cambio de escala de 
algunos valores de la evaluacion! Résulta que, para evitar esta sensibilidad, la funcion 
de evaluacion debe ser una transformacion line al positiva de la probabilidad de ganan- 
cia desde una posicion (o, mas generalmente, de la utilidad esperada de la posiciôn). Esto 
es una propiedad importante y general de situaciones en las que esta implicada la in- 
certidumbre, y hablaremos de ello en el Capftulo 16. 

Complejidad del minimaxesperado 

Si el programa supiera de antemano todos los resultados de las tiradas que ocurrirfan para 
el resto del juego, resolver un juego con dados séria como resolver un juego sin dados, 
en el que minimax lo hace en 0(b m ) veces. Como minimaxesperado considéra también 
todas las secuencias de las tiradas posibles, tendra 0(b m n m ), donde n es el nümero de re¬ 
sultados distintos. 

Incluso si la profundidad de büsqueda se limita a una pequena profundidad d, el cos- 
te adicional, comparado con el de minimax, lo hace poco realista para considerar anti- 
ciparse muy lejos en la mayorfa de los juegos de azar. En backgammon n es 21 y 6 esta 
por lo general alrededor de 20, pero en algunas situaciones podemos llegar a 4.000 para 
los resultados dobles. Très capas serfan, probablemente, todo lo que podriamos manejar. 

Otro modo de ver el problema es este: la ventaja de alfa-beta consiste en ignorar los 
progresos futuros que apenas van a suceder, dado el mejor juego. Asi, se concentra en 
acontecimientos probables. En juegos con dados, no hay secuencias probables de mo- 
vimientos, porque para que ocurran esos movimientos, los dados tendrian que salir pri- 
mero del modo correcto para hacerlos legales. Este es un problema general siempre que 
aparece la incertidumbre: las posibilidades se multiplican enormemente, y la formacion 
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de proyectos detallados de acciones se hacen inütiles, porque el mundo probablemente 
no jugarâ asi. 

Sin duda esto le habrâ ocurrido al lector que haya aplicado algo como la poda alfa- 
beta a ârboles de juegos con nodos posibilidad. Résulta que esto podria ocurrir. El anâ- 
lisis para los nodos min y max no se altéra, pero si podemos podar también los nodos 
de posibilidades, usando un poco de ingenio. Consideremos el nodo de posibilidad C de 
la Figura 6.11 y lo que le pasa a su valor cuando examinamos y evaluamos a sus hijos. 
/ ; Es posible encontrar un limite superior sobre el valor de C antes de que hayamos mi- 
rado a todos sus hijos? (Recuerde que esto es lo que alfa-beta necesita para podar un nodo 
y su subârbol.) A primera vista, podrfa parecer imposible, porque el valor de C es el pro- 
medio de los valores de sus hijos. Hasta que no hayamos visto todos los resultados de 
las tiradas, este promedio podria ser cualquier cosa, porque los hijos no examinados po- 
drian tener cualquier valor. Pero si ponemos limites sobre los valores posibles de la fun- 
cion de utilidad, entonces podemos llegar a poner limites para el promedio. Por ejemplo, 
si decimos que todos los valores de utilidad estân entre +3 y-3, entonces el valor de los 
nodos hoja esta acotado, y por su parte podemos colocar una cota superior sobre el va¬ 
lor de un nodo de posibilidad sin ver a todos sus hijos. 


Juegos de cartas 

Los juegos de cartas son interesantes por muchos motivos ademâs de su conexiôn con 
los juegos de azar. Entre la enorme variedad de juegos, nos centraremos en aquellos en 
los cuales las cartas se reparten al azar al principio del juego, y cada jugador recibe un 
conjunto de cartas que no son visibles a los otros jugadores. Taies juegos incluyen brid¬ 
ge, whist, corazones y algunas formas del poker. 

A primera vista, podria parecer que los juegos de cartas son como juegos de dados: 
jlas cartas se reparten al azar y determinan los movimientos disponibles para cada ju¬ 
gador, como si todos los dados fueran lanzados al principio! Perseguiremos esta obser- 
vacion mas tarde. Resultarâ ser bastante ütil en la prâctica. También se equivoca bastante, 
por motivos interesantes. 

Imaginemos dos jugadores, max y min, jugando algunas manos de bridge con cua- 
tro cartas visibles. Las manos son, donde max juega primero: 

max: <?6 06 *9 8 min: <?4 4k2*10 5 

Suponga que max sale con 4»9, min debe seguir ahora el palo, jugando cl 4» 1 0 o cl 4ô. 
min juega el ♦ 10 y gana la mano. min va después y sale con 4k 2. MAX no tiene picas (y 
asi no puede ganar la mano) y por lo tanto debe tirar alguna carta. La opcion obvia es 
0 6 porque las otras dos cartas restantes son ganadoras. Ahora, cualquier carta que min 
saque para la siguiente mano, max ganarâ (ganarâ ambas manos) y el juego sera de em¬ 
pâte con dos manos cada uno. Es fâcil mostrar, usando una variante conveniente de mi- 
nimax (Ejercicio 6.12), que la salida de max con el «fr9 es de hecho una opcion optima. 

Ahora vamos a modificar la mano de min, sustituyendo los 04 con los 04: 


max: 06 06 *98 


min: O4 4k2*10 5 
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Los dos casos son completamente simétricos: el juego sera idéntico, salvo que en la se- 
gunda mano max tirarâ el 6. Otra vez, el juego sera de empâte a dos manos cada uno 
y la salida con A 9 es una opcion ôptima. 

Hasta ahora, bien. Ahora vamos a esconder una de las cartas de min: max sabe que 
min tiene lo de la primera mano (con el 224) o lo de la segunda (con el 04), pero no 
sabe cuâl tiene realmente. max razona como sigue: 

El ^9 es una opcion ôptima contra la primera mano de min y contra la segunda mano 
de min, entonces debe ser ôptima ahora porque sé que min tiene una de las dos manos. 

Mas generalmente, max usa lo que podriamos llamar «hacer un promedio sobre la cla- 
rividencia». La idea es evaluar una linea de accion, cuando hay cartas no visibles, cal- 
culando primero el valor de minimax de esa accion para cada reparto posible de cartas, 
y luego calcular el valor esperado usando la probabilidad de cada reparto. 

Si piensa que esto es razonable (o si no tiene ni idea porque no entiende el bridge), 
considéré la siguiente historia: 

Dfa 1 : el Camino A conduce a un montôn de piezas de oro; el camino B conduce a una 
bifurcaciôn. Tome hacia la izquierda y encontrarâ un montôn de joyas, pero tome hacia 
la derecha y sera atropellado por un autobus. 

Dfa 2: el Camino A conduce a un montôn de piezas de oro; el camino B conduce a una 
bifurcaciôn. Tome hacia la derecha y encontrarâ un montôn de joyas, pero tome hacia la 
izquierda y sera atropellado por un autobus. 

Dfa 3: el camino A conduce a un montôn de piezas de oro; el camino B conduce a una 
bifurcaciôn. Adivine correctamente y encontrarâ un montôn de joyas, pero adivine in- 
correctamente y serâ atropellado por un autobus. 

Obviamente, no es irrazonable tomar el camino B durante los dos primeras dias. Nin- 
guna persona en su sano juicio, sin embargo, tomaria el camino B durante el Dia 3. Esto 
es exactamente lo que sugiere un promedio sobre la clarividencia: el camino B es ôpti- 
mo en las situaciones de Dia 1 y Dia 2; por lo tanto es ôptimo durante el Dia 3, porque 
una de las dos situaciones anteriores debe conseguirse. Volvamos al juego de cartas: des- 
pués de que max saïga con el min gana con el ♦ 10. Como antes, min sale con el 
4k 2, y ahora max esta como en la bifurcaciôn del camino sin ninguna instrucciôn. Si max 
tira el 226 y min todavia tiene 224, cl 924 se hace ganador y max pierde el juego. Del 
mismo modo, si max tira 0 6 y min todavia tiene el 0 4, MAX también pierde. Por lo tan¬ 
to, jugar primero el «fc9 conduce a una situaciôn donde MAX tiene una posibilidad del 
50 por ciento de perder. (Séria mucho mejor jugar primero el 2? 6 y el 06, garantizan- 
do un empâte.) 

La lecciôn que podemos sacar de todo esto es que cuando falla la informaciôn, hay 
que considerar la informaciôn que se tendrâ en cada punto del juego. El problema con 
el algoritmo de MAX es que asume que en cada posible reparto, el juego procédera como 
si todas las cartas fueran visibles. Como muestra nuestro ejemplo, esto conduce a MAX 
a actuar como si toda la inccrtidumbrc futur a vaya a ser resuelta cuando aparezca. El al¬ 
goritmo de max decidirâ también no reunir la informaciôn (ni proporcionar informaciôn 
a un companero), porque en cada reparto no hay ninguna necesidad de hacerlo; sin em¬ 
bargo en juegos como el bridge, es a menudo una buena idea jugar una carta que ayu- 
darâ a descubrir cosas sobre las cartas del adversario o informar a su companero sobre 
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sus propias cartas. Estas clases de comportamientos se generan automâticamente por un 
algoritmo ôptimo para juegos de la informacion imperfecta. Tal algoritmo no busca en 
el espacio de estados del mundo (las manos de las cartas), sino en el espacio de estados 
de creencia (creencia de quién tiene qué cartas, con qué probabilidades). Seremos ca- 
paces de explicar el algoritmo correctamente en el Capltulo 17, una vez que hayamos 
desarrollado la maquinaria probabillstica necesaria. En ese capltulo, ampliaremos tam- 
bién un punto final y muy importante: en juegos de informacion imperfecta, lo mejor es 
dar tan poca informacion al oponente como sea posible, y a menudo el mejor modo de 
hacerlo es actuar de manera impredecible. Por eso, los inspectores de sanidad hacen vi¬ 
sitas de inspeccion aleatorias a los restaurantes. 


6.6 Programas de juegos 


Podrlamos decir que jugar a juegos es a IA como el Gran Premio de carreras de auto- 
môviles es a la industria de coches: los programas de juegos son deslumbrantemente râ- 
pidos, mâquinas increlblemente bien ajustadas que incorporan técnicas muy avanzadas 
de la ingenieria, pero no son de mucho uso para hacer la compra. Aunque algunos in- 
vestigadores crean que jugar a juegos es algo irrelevante en la corriente principal de IA, 
se sigue generando entusiasmo y una corriente estable de innovaciones que se han adop- 
tado por la comunidad. 

ajedrez Ajedrez: en 1957, Herbert Simon predijo que dentro de 10 anos los computadores 

ganarfan al campeon mundial humano. Cuarenta anos mas tarde, el programa Deep Blue 
derrotô a Garry Kasparov en un partido de exhibicion a seis juegos. Simon se equivo- 
co, pero solo por un factor de 4. Kasparov escribio: 

El juego decisivo del partido fue el juego 2, que dejô una huella en mi memoria... Vimos 
algo que fue mas alla de nuestras expectativas mâs salvajes de como un computador sé¬ 
ria capaz de prever las consecuencias posicionales a largo plazo de sus decisiones. La mâ- 
quina rechazô moverse a una posiciôn que ténia una ventaja decisiva a corto plazo, 
mostrando un sentido muy humano del peligro. (Kasparov, 1997) 

Deep Blue fue desarrollado por Murray Campbell, Feng-Hsiung Hsu, y Joseph Hoane 
en IBM (véase Campbell et al., 2002), constmido sobre el diseno de Deep Thought desa¬ 
rrollado anteriomente por Campbell y Hsu en Carnegie Mellon. La mâquina ganadora 
era un computador paralelo con 30 procesadores IBM RS/6000 que controlaba la «büs- 
queda software» y 480 procesadores VLSI, encargados para el ajedrez, que realizaron 
la generacion de movimientos (incluso el movimiento de ordenacion), la «büsqueda hard¬ 
ware » para los ültimos niveles del ârbol, y la evaluacion de los nodos hoja. Deep Blue 
busco 126 millones de nodos por segundo, como régla general, con una velocidad 
mâxima de 330 millones de nodos por segundo. Généré hasta 30 billones de posiciones 
por movimiento, y alcanzo la profundidad 14 rutinariamente. El corazon de la mâquina 
es una büsqueda alfa-beta estândar de profundidad iterativa con una tabla de transposi- 
ciones, pero la llave de su éxito parece haber estado en su capacidad de generar exten- 
siones mâs allâ del limite de profundidad para llneas suficientemente interesantes. En 
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MOVIMIENTO NULO 


PQDA DE INUTILIDAD 


DAMAS 


algunos casos la büsqueda alcanzô una profundidad de 40 capas. La funcion de evalua- 
cién ténia mas de 8.000 caracteristicas, muchas de ellas describiendo modelos muy es- 
pecificos de las piezas. Se uso una «salida de libro» de aproximadamente 4.000 
posiciones, asi como una base de datos de 700.000 jugadas de gran maestro de las cua- 
les se podrian extraer algunas recomendaciones de consenso. El sistema también utili- 
zô una gran base de datos de finales del juego de posiciones resueltas, conteniendo todas 
las posiciones con cinco piezas y muchas con seis piezas. Esta base de datos tiene el con¬ 
sidérable efecto de ampliar la profundidad efectiva de büsqueda, permitiendo a Deep Blue 
jugar perfectamente en algunos casos aun cuando se aleja del jaque mate. 

El éxito de Deep Blue reforzô la creencia de que el progreso en los juegos de com- 
putador ha venido principalmente del hardware cada vez mas poderoso (animado por 
IBM). Los creadores de Deep Blue, por otra parte, declaran que las extensiones de büs¬ 
queda y la funcion de evaluacion eran también criticas (Campbell et al., 2002). Ademâs, 
sabemos que mejoras algoritmicas recientes han permitido a programas, que se ejecu- 
tan sobre computadores personales, ganar cada Campeonato Mundial de Ajedrez de com- 
putadores desde 1992, a menudo derrotando a adversarios masivamente paralelos que 
podrian buscar 1.000 veces mas nodos. Una variedad de poda heuristica se utiliza para 
reducir el factor de ramificacion efectivo a menos de 3 (comparado con el factor de ra- 
mificacién actual de aproximadamente 35). Lo mas importante de ésta es la heuristica 
de movimiento nulo, que généra una cota inferior buena sobre el valor de una posiciôn, 
usando una büsqueda superficial en la cual el adversario consigue moverse dos veces. 
Esta cota inferior a menudo permite la poda alfa-beta sin el costo de una büsqueda de 
profundidad compléta. También es importante la poda de inutilidad, la cual ayuda ha 
decidir de antemano qué movimientos causarân un corte beta en los nodos sucesores. 

El equipo de Deep Blue rehusô la posibilidad de un nuevo partido con Kasparov. En 
cambio, la competiciôn principal mas reciente de 2002 destacô el programa FRITZ con¬ 
tra el campeon mundial Vladimir Kramnik. El partido a ocho juegos terminé en un em¬ 
pâte. Las condiciones del partido eran mucho mas favorables al humano, y el hardware 
era un computador personal ordinario, no un supercomputador. De todos modos, Kram¬ 
nik comentô que «esta ahora claro que el programa y el campeon mundial son aproxi¬ 
madamente iguales». 

Damas: en 1952, Arthur Samuel de IBM, trabajando en sus ratos libres, desarrollô 
un programa de damas que aprendiô su propia funcion de evaluacion jugando con él mis- 
mo miles de veces. Describimos esta idea mas detalladamente en el Capitulo 21. El pro¬ 
grama de Samuel comenzô como un principiante, pero después, solo unos dias de 
auto-jugar, se habia mejorado mas alla del propio nivel de Samuel (aunque él no fuera 
un jugador fuerte). En 1962 dénoté a Robert Nealy, un campeon en «damas ciegas», por 
un error por su parte. Muchas personas senalaron que, en damas, los computadores eran 
superiores a la gente, pero no era la cuestiôn. De todos modos, cuando uno considéra 
que el equipo calculador de Samuel (un IBM 704) ténia 10.000 palabras de memoria prin¬ 
cipal, cinta magnetofônica para el almacenaje a largo plazo y un procesador de ,000001 
GHz, el triunfo sigue siendo un gran logro. 

Pocas personas intentaron hacerlo mejor hasta que Jonathan Schaeffer y colegas desa- 
rrollaran Chinook, que se ejecuta sobre computadores personales y usa la büsqueda alfa- 
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beta. Chinook usa una base de datos precalculada de 444 billones de posiciones con ocho 
o menos piezas sobre el tablero para asi hacer la fase final del juego de forma impeca- 
ble. Chinook quedô segundo en el Abierto de Estados Unidos de 1990 y gano el dere- 
cho a participar en el campeonato mundial. Entonces se ejecutô contra un problema, en 
la forma de Marion Tinsley. Dr. Tinsley habia sido el campeôn mundial durante mas de 
40 anos, y habia perdido solo très juegos en todo ese tiempo. En el primer partido con¬ 
tra Chinook, Tinsley sufriô sus cuartas y quintas derrotas, pero gano el partido 20.5-18.5. 
El partido del campeonato mundial en agosto de 1994 entre Tinsley y Chinook se ter¬ 
miné prematuramente cuando Tinsley tuvo que retirarse por motivos de salud. Chinook 
se convirtiô en el campeôn mundial oficial. 

Schaeffer créé que, con bastante poder calculador, la base de datos de fases finales 
podria ampliarse hasta el punto donde una büsqueda hacia delante desde la posiciôn ini- 
cial alcanzaria siempre posiciones resueltas, es decir, las damas estarfan completamen- 
te resueltas. (Chinook ha anunciado un triunfo tan solo en cinco movimientos.) Esta clase 
de anâlisis exhaustivo puede hacerse a mano para tic-tac-toe 3x3 y se ha hecho con el 
computador para Qubic (tic-tac-toe 4x4x4), Go-Moku (cinco en fila), y Morris de nue- 
ve-hombres (Gasser, 1998). El trabajo notable de Ken Thompson y Lewis Stiller (1992) 
resolviô todo el ajedrez con cinco piezas y las fases finales de seis piezas, poniéndolas 
a disposiciôn sobre Internet. Stiller descubriô un caso donde existia un jaque mate for- 
zado, pero requiriô 262 movimientos; esto causé alguna constemaciôn porque las réglas 
del ajedrez requieren que ocurra algün «progreso» en 50 movimientos. 

otelo Otelo: también llamado Reversi, es probablemente mas popular como un juego de 

computador que como un juego de mesa. Tiene un espacio de büsqueda mas pequeno que 
el ajedrez, por lo general de cinco a 15 movimientos legales, pero desde los comienzos 
se tuvo que desarrollar la evaluaciôn experta. En 1997, el programa Logistello (Buro, 2002) 
derrotô al campeôn mundial humano, Takeshi Murakami, por seis juegos a ninguno. Se 
reconoce, generalmente, que la gente no es igual a los computadores en Otelo. 

backgammon Backgammon: la Secciôn 6.5 explicé por qué la inclusion de incertidumbre, pro- 

vocada por el lanzamiento de los dados, hace de la büsqueda un lujo costoso. La mayor 
parte de los trabajos sobre backgammon se han centrado en la mejora de la funcién de 
evaluaciôn. Gerry Tesauro (1992) combiné el aprendizaje por refuerzo de Samuel con 
técnicas de redes neuronales (Capitulo 20) para desarrollar un evaluador notablemente 
exacto usado con una büsqueda a profundidad 2 o 3. Después de jugar mas de un mi- 
llôn de juegos de entrenamiento contra él mismo, el programa de Tesauro, TD-Gammon, 
se sitüa, seguramente, entre los très primeras jugadores del mundo. Las opiniones del 
programa sobre los movimientos de apertura del juego han alterado radicalmente la sa- 
biduria recibida. 

go Go: es el juego de mesa mas popular de Asia, requiriendo al menos tanta disciplina 

de sus profesionales como el ajedrez. Como el tablero es de 19x19, el factor de ramifi- 
caciôn comienza en 361, que desalienta también a los métodos regulares de büsqueda. 
Hasta 1997 no habia ningün programa competente, pero ahora los programas a menu- 
do juegan respetablemente. La mayor parte de los mejores programas combinan técni¬ 
cas de reconocimiento de modelos (cuando aparece el siguiente modelo de piezas, este 
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movimiento debe considerarse) con la büsqueda limitada (décidé si estas piezas pueden 
ser capturadas, y quedan dentro del area local). Los programas mas fuertes, en el mo- 
mento de estar escribiendo, son probablemente Goemate de Chen Zhixing y Go4+ + de 
Michael Reiss, cada uno valorado en alrededor de 10 kyu (aficionado débil). Go es un 
area que probablemente se beneficiarâ de la investigaciôn intensiva que utiliza métodos 
de razonamiento mas sofisticados. El éxito puede venir de encontrar modos de integrar 
varias lineas del razonamiento local sobre cada uno de los muchos «subjuegos» ligera- 
mente conectados en los que Go se puede descomponer. Taies técnicas serian de énor¬ 
me valor para sistemas inteligentes en general. 

bridge Bridge: es un juego de informacion imperfecta: las cartas de un jugador se escon- 

den de los otros jugadores. El bridge es también un juego multijugador con cuatro ju- 
gadores en vez de dos, aunque los jugadores se emparejen en dos equipos. Cuando lo 
vimos en la Secciôn 6.5, el juego ôptimo en el bridge puede incluir elementos de reu¬ 
nion de informacion, comunicaciôn, tirarse un farol, y el ponderado cuidadoso de pro- 
babilidades. Muchas de estas técnicas se usan en el programa de Bridge Baron™ (Smith 
et al., 1998), que ganô el campeonato de bridge de computadores de 1997. Mientras no 
juega ôptimamente, Bridge Baron es uno de los pocos sistemas de juegos en usar pla¬ 
nes complejos y jerârquicos (véase el Capitulo 12) que implican ideas de alto nivel como 
astucia y aprieto, que son familiares para los jugadores de bridge. 

El programa GIB (Ginsberg, 1999) ganô el campeonato 2000 con decision. GIB usa 
el método de «hacer un promedio sobre la clarividencia», con dos modificaciones cru¬ 
ciales. Primero, antes de examinar cuân bien trabaja cada opciôn para cada plan posible 
de las cartas escondidas, (de las cuales puede ser hasta 10 millones) examina una mues- 
tra aleatoria de 100 planes. Segundo, GIB usa la generalizaciôn basada en explicaciones 
para calcular y guardar las réglas generales para el juego ôptimo en varias clases estân- 
dar de situaciones. Esto permite resolver cada reparto exactamente. La exactitud tâcti- 
ca del GIB compensa su inhabilidad de razonar sobre la informacion. Terminé el 12° de 
35 en la competiciôn de igualdad (implicando solamente el juego de una mano) en el 
campeonato mundial humano de 1998, excediendo las expectativas de muchos expertos 
humanos. 


6.7 Discusion 


Como el câlculo de decisiones ôptimas en juegos es intratable en la mayoria de los ca- 
sos, todos los algoritmos deben hacer algunas suposiciones y aproximaciones. La apro¬ 
ximaciôn estândar, basada en minimax, funciones de evaluaciôn y alfa-beta, es solamente 
un modo de hacerlo. Probablemente porque la propusieron tan pronto, la aproximaciôn 
estândar fue desarrollada intensivamente y domina otros métodos en los juegos de tur- 
nos. Algunos en el campo creen que esto ha causado que jugar a juegos llegue a divor- 
ciarse de la corriente principal de investigaciôn de IA, porque la aproximaciôn estândar 
no proporciona mucho mâs espacio para nuevas perspicacias en cuestiones generales de 
la toma de decisiones. En esta secciôn, vemos las alternativas. 
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Primero, consideremos minimax. Minimax selecciona un movimiento ôptimo en un 
ârbol de büsqueda a condition de que las evaluaciones de los nodos hoja sean exacta- 
mente connectas. En realidad, las evaluaciones son generalmente estimaciones rudi- 
mentarias del valor de una posiciôn y se consideran que tienen asociados errores grandes. 
La Figura 6.13 muestra un ârbol de juegos de dos capas para el cual minimax parece 
inadecuado. Minimax aconseja tomar la rama derecha, mientras que es bastante proba¬ 
ble que el valor real de la rama izquierda sea mas alto. La opciôn de minimax confia su- 
poniendo que todos los nodos etiquetados con valores 100, 101, 102 y 100 sean nealmente 
mejores que el nodo etiquetado con el valor 99. Sin embargo, el hecho de que el nodo 
etiquetado con 99 tiene hermanos etiquetados con 1.000 sugiere que, de hecho, podrfa 
tener un valor real mas alto. Un modo de tratar con este problema es tener una evalua- 
ciôn que devuelva una distribution depnobabilidad sobre valores posibles. Enfonces uno 
puede calcular la distribuciôn de probabilidad del valor del padre usando técnicas esta- 
disticas. Lamentablemente, los valores de los nodos hermanos estân, por lo general, muy 
correlacionados, por consiguiente puede ser de câlculo costoso, requisito importante para 
obtener la informacion. 

Después, consideramos el algoritmo de büsqueda que généra el ârbol. El objetivo de 
un disenador de algoritmos es especificar un câlculo de ejecuciôn râpida y que produz- 
ca un movimiento bueno. El problema mâs obvio con el algoritmo alfa-beta es que estâ 
disenado, no solamente para seleccionar un movimiento bueno, sino también para cal¬ 
cular limites sobre los valores de todos los movimientos legales. Para ver por qué esta 
informacion suplementaria es innecesaria, consideremos una posiciôn en la cual hay solo 
un movimiento legal. La büsqueda alfa-beta todavia generarâ y evaluarâ un grande, y 
totalmente inütil, ârbol de büsqueda. Desde luego, podemos insertar un test en el algo¬ 
ritmo, pero éste simplemente esconderâ el problema subyacente: muchos de los câlcu- 
los hechos por alfa-beta son en gran parte irrelevantes. Tener solo un movimiento legal 
no es mucho mâs diferente que tener varios movimientos legales, uno de los cuales es 
excelente y el resto obviamente desastroso. En una situaciôn «favorita clara» como ésta, 
séria mejor alcanzar una decision râpida después de una pequena cantidad de büsque¬ 
da, que gastar el tiempo que podria ser mâs provechoso mâs tarde en una posiciôn mâs 
problemâtica. Esto conduce a la idea de la utilidad de una expansion de un nodo. Un al¬ 
goritmo de büsqueda bueno deberia seleccionar expansiones de nodos de utilidad alta 
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(es decir que probablemente conducirân al descubrimiento de un movimiento conside- 
rablemente mejor). Si no hay ninguna expansion de nodos cuya utilidad sea mas alta que 
su coste (en términos de tiempo), entonces el algoritmo deberia dejar de buscar y hacer 
un movimiento. Notemos que esto funciona no solamente para situaciones favoritas cla- 
ras, sino también para el caso de movimientos simétricos, para los cuales ninguna can- 
tidad de la büsqueda mostrarâ que un movimiento es mejor que otro. 

A esta clase de razonamiento, sobre qué câlculos hacer, se le llama meta-razona- 
meta-razonamiento miento (razonamiento sobre el razonamiento). Esto se aplica no solamente a juegos, sino 
a cualquier clase del razonamiento. Todos los câlculos se hacen para tratar de alcanzar 
mejores decisiones, todos tienen gastos, y todos tienen alguna probabilidad de causar una 
cierta mejora de la calidad de decision. Alfa-beta incorpora la clase mas simple de 
meta-razonamiento, un teorema en el sentido de que ciertas ramas del ârbol pueden ig- 
norarse sin perder. Es posible hacerlo mue ho mejor. En el Capitulo 16, veremos cômo 
estas ideas pueden hacerse mas précisas e implementables. 

Finalmente, reexaminemos la naturaleza de la büsqueda en si mismo. Algoritmos para 
la büsqueda heuristica y para juegos trabajan generando secuencias de estados concre- 
tos, comenzando desde el estado inicial y luego aplicando una funcion de evaluaciôn. 
Claramente, asi no es como juega la gente. En el ajedrez, uno a menudo tiene en men¬ 
te un objetivo particular (por ejemplo, atrapar la reina del adversario) y puede usar este 
objetivo para generar selectivamente el plan plausible para conseguirlo. Esta clase de ra¬ 
zonamiento dirigido por objetivos o planification a veces élimina, totalmente, la büs¬ 
queda combinatoria. (Véase la Parte IV.) PARADISE de David Wilkins (1980) es el ünico 
programa que ha usado el razonamiento dirigido por objetivos con éxito en el ajedrez: 
era capaz de resolver algunos problemas de ajedrez que requieren una combinaciôn de 
18 movimientos. Aün no es nada fâcil entender como combinai • las dos clases de algo¬ 
ritmos en un sistema robusto y eficiente, aunque Bridge Baron pudiera ser un paso en 
la direcciôn correcta. Un sistema totalmente integrado séria un logro significativo, no 
solamente para la investigaciôn de juegos, sino también para la investigaciôn de IA en 
general, porque esto séria una buena base para un agente general inteligente. 


6.8 Resumen 


Hemos visto una variedad de juegos para entender qué significa jugar ôptimamente y 
entender cômo jugar bien en la prâctica. Las ideas mas importantes son las siguientes: 

• Un juego puede definirse por el estado inicial (como se establece en el tablera), 
las acciones legales en cada estado, un test terminal (que dice cuândo el juego 
esta terminado), y una funcion de utilidad que se aplica a los estados terminales. 

• En juegos de suma cero de dos jugadores con informaciôn perfecta, el algorit¬ 
mo minimax puede seleccionar movimientos ôptimos usando una enumeraciôn pri¬ 
mera en profundidad del ârbol de juegos. 

• El algoritmo de büsqueda alfa-beta calcula el mismo movimiento ôptimo que el 
minimax, pero consigue una eficiencia mucho mayor, eliminando subârboles que 
son probablemente irrelevantes. 
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• Por lo general, no es factible considerar el ârbol entero de juegos (hasta con alfa- 
beta), enfonces tenemos que cortar la büsqueda en algün punto y aplicar una fun- 
ciôn de evaluaciôn que dé una estimaciôn de la utilidad de un estado. 

• Los juegos de azar pueden manejarse con una extension del algoritmo minimax 
que evalüa un nodo de posibilidad tomando la utilidad media de todos sus nodos 
hijos, ponderados por la probabilidad de cada hijo. 

• El juego ôptimo en juegos de informacion imperfecta, como el bridge, requiere 
el razonamiento sobre los estados de creencia actuales y futuros de cada jugador. 
Una aproximaciôn simple puede obtenerse haciendo un promedio del valor de una 
acciôn sobre cada configuraciôn posible de la informacion ausente. 

• Los programas pueden equipararse o pueden ganar a los mejores jugadores hu- 
manos en damas, Otelo y backgammon, y estân cercanos en bridge. Un programa 
ha ganado al campeôn mundial de ajedrez en un partido de exhibiciôn. Los pro¬ 
gramas permanecen en el nivel aficionado en Go. 



Notas bibliogrâficas e histôricas 

La temprana historia de los juegos mecânicos se estropeô por numerosos fraudes. El mas 
célébré de estos fue «El Turco» de Baron Wolfgang von Kempelen (1734-1804), un su- 
puesto autômata que jugaba al ajedrez, que derrotô a Napoléon antes de ser expuesto como 
la caja de bromas de un mago que escondia a un humano experto en ajedrez ( véase Le- 
vitt, 2000). Jugo desde 1769 hasta 1854. En 1846, Charles Babbage (quien habia sido fas- 
cinado por el Turco) parece haber contribuido a la primera discusiôn séria de la viabilidad 
del computador de ajedrez y de damas (Morrison y Morrison, 1961). El también diseno, 
pero no construyô, una mâquina con destino especial para jugar a tic-tac-toe. La prime¬ 
ra mâquina real de juegos fue construida alrededor de 1890 por el ingeniero espanol Le¬ 
onardo Torres y Quevedo. Se especializô en el «RTR» (rey y torre contra el rey), la fase 
final de ajedrez, garantizando un triunfo con el rey y torre desde cualquier posiciôn. 

El algoritmo minimax se remonta a un trabajo publicado en 1912 de Ernst Zerme- 
lo, el que desarrollo la teoria moderna de conjuntos. El trabajo, lamentablemente, ténia 
varios errores y no describio minimax correctamente. Un fundamento sôlido, para la te¬ 
oria de juegos, fue desarrollado en el trabajo séminal de Theory of Game s and Econo¬ 
mie Behaviour (von Neumann y Morgenstern, 1944), que incluyô un anâlisis en el que 
mostraba que algunos juegos requieren estrategias aleatorizadas (o imprévisibles). Véase 
el Capitulo 17 para mas informacion. 

Muchas figuras influyentes de los comienzos de los computadores, quedaron intri- 
gadas por la posibilidad de jugar al ajedrez con un computador. Konrad Zuse (1945), la 
primera persona que diseno un computador programable, desarrollo ideas bastante de- 
talladas sobre como se podrfa hacer esto. El libro influyente de Norbert Wiener (1948), 
Cybernetics, hablô de un diseno posible para un programa de ajedrez, incluso las ideas 
de büsqueda minimax, limites de profundidad, y funciones de evaluaciôn. Claude Shan- 
non (1950) présenté los principios bâsicos de programas modernos de juegos con mu- 
cho mas detalle que Wiener. El introdujo la idea de la büsqueda de estabilidad y describio 
algunas ideas para la büsqueda del ârbol de juegos selectiva (no exhaustiva). Slater 
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( 1950) y los que comentaron su artfculo también exploraron las posibilidades para el jue- 
go de ajedrez por computador. En particular, I. J. Good (1950) desarrollô la nociôn de 
estabilidad independientemente de Shannon. 

En 1951, Alan Turing escribio el primer programa de computador capaz de jugar un 
juego completo de ajedrez (véase Turing et al., 1953). Pero el programa de Turing nun- 
ca se ejecutô sobre un computador; fue probado por simulaciôn a mano contra un juga- 
dor muy débil humano, que lo derrotô. Mientras tanto D. G. Prinz (1952) escribio , y 
realmente ejecutô, un programa que resolviô problemas de ajedrez, aunque no jugara un 
juego completo. Alex Bernstein escribio el primer programa para jugar un juego com¬ 
pleto de ajedrez estândar (Bernstein y Roberts, 1958; Bernstein et al., 1958) 3 . 

John McCarthy concibiô la idea de la büsqueda alfa-beta en 1956, aunque él no lo 
publicara. El programa NSS de ajedrez (Newell et al., 1958) usé una version simplifi- 
cada de alfa-beta; y fue el primer programa de ajedrez en hacerlo asi. Segün Nilsson 
(1971), el programa de damas de Arthur Samuel (Samuel, 1959, 1967) también usé alfa- 
beta, aunque Samuel no lo mencionara en los informes publicados sobre el sistema. Los 
trabajos que describen alfa-beta fueron publicados a principios de 1960 (Hart y Edwards, 
1961; Bmdno, 1963; Slagle, 1963b). Una implementaciôn compléta de alfa-beta esta des- 
crita por Slagle y Dixon ( 1969) en un programa para juegos de Kalah. Alfa-beta fue tam¬ 
bién utilizada por el programa «Kotok-McCarthy» de ajedrez escrito por un estudiante 
de John McCarthy (Kotok, 1962). Knuth y Moore (1975) proporcionan una historia de 
alfa-beta, junto con una demostraciôn de su exactitud y un anâlisis de complejidad en 
tiempo. Su anâlisis de alfa-beta con un orden de sucesores aleatorio mostrô una com¬ 
plejidad asintôtica de 0((b/log b)' 1 ), que pareciô bastante triste porque el factor de ra- 
mificaciôn efectivo b/log b no es mucho menor que b. Ellos, enfonces, se dieron cuenta 
que la formula asintôtica es exacta solo para b > 1000 mas o menos, mientras que a me- 
nudo se aplica un 0(b 3dl4 ) a la variedad de factores de ramificaciôn encontrados en los 
juegos actuales. Pearl (1982b) muestra que alfa-beta es asintôticamente ôptima entre to- 
dos los algoritmos de büsqueda de ârbol de juegos de profundidad fija. 

El primer partido de ajedrez de computador présenté al programa Kotok-McCarthy 
y al programa «ITEP» escrito a mediados de 1960 en el Instituto de Moscü de Fisica Te- 
ôrica y Experimental (Adelson-Velsky et al., 1970). Este partido intercontinental fue ju- 
gado por telégrafo. Se terminô con una Victoria 3-1 para el programa ITEP en 1967. El 
primer programa de ajedrez que compitiô con éxito con la gente fue MacHack 6 (Gre- 
enblatt et al., 1967). Su grado de aproximadamente 1.400 estaba bien sobre el nivel de 
principiante de 1.000, pero era bajo comparado con el grado 2.800 o mas que habria sido 
necesario para satisfacer la predicciôn de 1957 de Herb Simon de que un programa de 
computador séria el campeôn mundial de ajedrez en el plazo de 10 anos (Simon y Ne¬ 
well, 1958). 

Comenzando con el primer Campeonato Norteamericano ACM de Ajedrez de com¬ 
putador en 1970, el concurso entre programas de ajedrez se hizo serio. Los programas 
a principios de 1970 se hicieron sumamente complicados, con varias clases de trucos para 
eliminar algunas ramas de büsqueda, para generar movimientos plausibles, etcétera. 


3 Newell et al. ( 1958) mencionan un programa ruso, BESM, que puede haber precedido al programa de Berns¬ 
tein. 
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En 1974, el primer Campeonato Mundial de Ajedrez de computador fue celebrado en 
Estocolmo y ganado por Kaissa (Adelson-Velsky et al, 1975), otro programa de ITEP. 
Kaissa utilizô la aproximacion mucho mas directa de la büsqueda alfa-beta exhaustiva 
combinada con la büsqueda de estabilidad. El dominio de esta aproximacion fue con- 
firmado por la Victoria convincente de Chess 4.6 en el Campeonato Mundial de 1977 
de Ajedrez de computador. Chess 4.6 examiné hasta 400.000 posiciones por movi- 
miento y ténia un grado de 1.900. 

Una version posterior de MacHack, de Greenblatt 6, fue el primer programa de aje¬ 
drez ejecutado sobre un hardware de encargo disenado expresamente para el ajedrez 
(Moussouris et al., 1979), pero el primer programa en conseguir éxito notable por el uso 
del hardware de encargo fue Belle (Condon y Thompson, 1982). El hardware de gene- 
raciôn de movimientos y de la evaluaciôn de la posiciôn de Belle, le permitieô explo- 
rar varios millones de posiciones por movimiento. Belle consiguio un grado de 2.250, 
y se hizo el primer programa de nivel maestro. El sistema Hitech, también un compu¬ 
tador con propôsito especial, fue disenado por el antiguo Campeon de Ajedrez de Co- 
rrespondencia Mundial Hans Berliner y su estudiante Cari Ebeling en CMU para permitir 
el câlculo râpido de la funciôn de evaluaciôn (Ebeling, 1987; Berliner y Ebeling, 1989). 
Generando aproximadamente 10 millones de posiciones por movimiento, Hitech se hizo 
el campeon norteamericano de computador en 1985 y fue el primer programa en derro- 
tar a un gran maestro humano en 1987. Deep Thought, que fue también desarrollado en 
CMU, fue mas lejos en la direcciôn de la velocidad pura de büsqueda (Hsu et al., 1990). 
Consiguio un grado de 2.551 y fue el precursor de Deep Blue. El Premio de Fredkin, es- 
tablecido en 1980, ofreciô 5.000 dôlares al primer programa en conseguir un grado de 
maestro, 10.000 dôlares al primer programa en conseguir un grado FEUA (Federaciôn 
de los Estados Unidos de Ajedrez) de 2.500 (cerca del nivel de gran maestro), y 100.000 
dôlares para el primer programa en derrotar al campeon humano mundial. El premio de 
5.000 dôlares fue reclamado por Belle en 1983, el premio de 10.000 dôlares por Deep 
Thought en 1989, y el premio de 100.000 dôlares por Deep Blue por su Victoria sobre 
Garry Kasparov en 1997. Es importante recordar que el éxito de Deep Blue fue debido 
a mejoras algorftmicas y de hardware (Hsu, 1999; Campbell et al., 2002). Las técnicas 
como la heuristica de movimiento nulo (Beal, 1990) han conducido a programas que son 
completamente selectivos en sus büsquedas. Los très ültimos Campeonatos Mundiales 
de Ajedrez de computador en 1992, 1995 y 1999 fueron ganados por programas que se 
ejecutan sobre computadores personales. Probablemente la mayor parte de la descrip- 
ciôn compléta de un programa moderno de ajedrez la proporciona Ernst Heinz (2000), 
cuyo programa DarkThought fue el programa de computador no comercial de rango 
mas alto de los campeonatos mundiales de 1999. 

Varias tentativas se han hecho para vencer los problemas «de la aproximacion es- 
tândar» perfilados en la Secciôn 6.7. El primer algoritmo selectivo de büsqueda con un 
poco de base teôrica fue probablemente B* (Berlinés, 1979), que intenta mantener li¬ 
mites de intervalos sobre el valor posible de un nodo en el ârbol de juegos, mas que dar- 
le una estimaciôn valorada por un punto. Los nodos hoja son seleccionados para 
expansion en una tentativa de refinar los limites del nivel superior hasta que un movi¬ 
miento sea «claramente mejor». Palay (1985) amplia la idea de B* para usar distribu- 
ciones de probabilidad en lugar de intervalos. La büsqueda del nümero de conspiraciôn 
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de David McAllester (1988) expande los nodos hoja que, cambiando sus valores, podrian 
hacer que el programa prefiriera un nuevo movimiento en la raiz. MGSS* (Russell y We- 
fald, 1989) usa las técnicas teôricas de decision del Capitulo 16 para estimar el valor de 
expansion de cada hoja en términos de mejora esperada de la calidad de decision en la 
ralz. Jugo mejor que un algoritmo alfa-beta, en Otelo, a pesar de la büsqueda de un or- 
den de magnitud de menos nodos. La aproximaciôn MGSS* es, en principio, aplicable 
al control de cualquier forma de deliberation. 

La büsqueda alfa-beta es, desde muchos puntos de vista, el anâlogo de dos jugado- 
res al ramifie ar y acotar primero en profundidad, dominada por A* en el caso de agente 
simple. El algoritmo SSS* (Stockman, 1979) puede verse como A* de dos jugadores y 
nunca expande mas nodos que alfa-beta para alcanzar la misma decision. Las exigencias 
de memoria y los costos indirectos computacionales de la cola hacen que SSS* sea poco 
prâctico en su forma original, pero se ha desarrollado una version de espacio-lineal a par¬ 
tir del algoritmo RBFS (Korf y Chickering, 1996). Plaat et al. (1996) desarrollaron una 
nueva vision de SSS* como una combination de alfa-beta y tablas de transposiciones, mos- 
trando como vencer los inconvenientes del algoritmo original y desarrollando una nueva 
variante llamada MTD(/) que ha sido adoptada por varios programas superiores. 

D. F. Beal (1980) y Dana Nau (1980,1983) estudiaron las debilidades de minimax 
aplicado a la aproximaciôn de las evaluaciones. Ellos mostraron que bajo ciertos axio- 
mas de independencia sobre las distribuciones de los valores de las hojas, minimaximi- 
zar puede producir valores en la ralz que son realmente menos fiables que el uso directo 
de la funciôn de évaluation. El libro de Pearl, Heuristics (1984), explica parcialmente 
esta paradoja aparente y analiza muchos algoritmos de juegos. Baum y Smith ( 1997) pro- 
ponen una sustituciôn a base de probabilidad para minimax, y muestra que ésto causa 
mejores opciones en ciertos juegos. Hay todavia poca teoria sobre los efectos de cortar 
la büsqueda en niveles diferentes y aplicar funciones de évaluation. 

El algoritmo minimax esperado fue propuesto por Donald Michie (1966), aunque por 
supuesto sigue directamente los principios de évaluation de los ârboles de juegos debi- 
do a von Neumann y Morgenstern. Bmce Ballard (1983) ampliô la poda alfa-beta para 
cubrir ârboles de nodos de posibilidad. El primer programa de backgammon fue BKG 
(Berliner, 1977,1980b); utilizô una funciôn de evaluaciôn compleja construida a mano 
y buscô solo a profundidad 1. Fue el primer programa que derrotô a un campeôn mun- 
dial humano en un juego clâsico importante (Berliner, 1980a). Berliner reconociô que 
éste fue un partido de exhibiciôn muy corto (no fue un partido del campeonato mundial) 
y que BKG tuvo mucha suerte con los dados. El trabajo de Gerry Tesauro, primero so¬ 
bre Neurogammon (Tesauro, 1989) y mas tarde sobre TD-Gammon (Tesauro, 1995), 
mostrô que se pueden obtener muchos mejores resultados mediante el aprendizaje por 
refuerzo, que trataremos en el Capitulo 21. 

Las damas, mas que el ajedrez, fue el primer juego clâsico jugado completamente por 
un computador. Christopher Strachey (1952) escribiô el primer programa de funciona- 
miento para las damas. Schaeffer (1997) dio una muy legible, «con todas sus imperfec- 
ciones», cuenta del desarrollo de su programa de damas campeôn del mundo Chinook. 

Los primeras programas de Go fueron desarrollados algo mâs tarde que los de las 
damas y el ajedrez (Lefkovitz, 1960; Remus, 1962) y han progresado mâs despacio. Ryder 
(1971) uso una aproximaciôn basada en la büsqueda pura con una variedad de métodos 
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de poda selectivos para vencer el enorme factor de ramification. Zobrist (1970) usô las 
réglas condition-action para sugerir movimientos plausibles cuando aparecieran los mo- 
delos conocidos. Reitman y Wilcox (1979) combinan réglas y büsqueda con efectos bue- 
nos, y los programas mas modernos han seguido esta aproximaciôn hibrida. Müller (2002) 
résumé el estado del arte de la informatizaciôn de Go y proporciona una riqueza de re- 
ferencias. Anshelevich (2000) utilizô las técnicas relacionadas para el juego Hex. Com¬ 
puter Go Newsletter, publicada por la Asociaciôn de Go por computador, describe el 
desarrollo actual del juego. 

Los trabajos sobre juegos de computador aparecen en multitud de sitios. La mal 11a- 
mada conferencia Heuristic Programming in Artificial Intelligence hizo un informe so¬ 
bre las Olimpiadas de Computador, que incluyen una amplia variedad de juegos. Hay 
también varias colecciones de trabajos importantes sobre la investigation en juegos 
(Levy, 1988a, 1988b; Marsland y Schaeffer, 1990). La Asociaciôn Internacional de Aje- 
drez por Computador (ICCA), fundada en 1977, publica la revista trimestral ICGA (an- 
teriormente la revista ICCA). Los trabajos importantes han sido publicados en la sérié 
antolôgica Advances in Computer Chess, que comienza con Clarke (1977). El volumen 
134 de la revista Artificial Intelligence (2002) contiene descriptions de programas 
para el ajedrez, Otelo, Hex, shogi, Go, backgammon, poker, Scrabble™ y otros juegos. 



EJERCICIOS 

6.1 En este problema se ejercitan los conceptos bâsicos de juegos, utilizando tic-tac- 
toe (très en raya) como un ejemplo. Definimos X n como el nümero de filas, columnas, 
o diagonales con exactamente n Xs y ningün O. Del mismo modo, O n es el nümero de 
filas, columnas, o diagonales con solamente n Os. La funciôn de utilidad asigna +1 a 
cualquier position con X . =1 y — 1 a cualquier position con 0 3 = 1. Todas las otras po¬ 
sitions terminales tienen utilidad 0. Para posiciones no terminales, usamos una funciôn 
de évaluation final definida como Eval(s) = 3 X 2 (s) + X fis) — (30 fis) + 0 } ( 5 )). 

a) ^Aprox imad amente cuântos juegos posibles de tic-tac-toe hay? 

b) Muestre el ârbol de juegos entero hasta profundidad 2 (es decir, un A y un O so¬ 
bre el tablero) comenzando con un tablero vatio, teniendo en cuenta las sime- 
trias. 

c) Seriale sobre el ârbol las évaluations de todas las posiciones a profundidad 2. 

d ) Usando el algoritmo minimax, marque sobre su ârbol los valores hacia atrâs para 
las posiciones de profundidades 1 y 0, y use esos valores para elegir el mejor 
movimiento de salida. 

e ) Marque los nodos a profundidad 2 que no serian evaluados si se aplicara la poda 
alfa-beta, asumiendo que los nodos estân generados en orden ôptimo por la poda 
alfa-beta. 


6.2 Demuestre la afirmaciôn siguiente: para cada ârbol de juegos, la utilidad obtenida 
por max usando las decisions minimax contra min subôptimo nunca serâ inferior que 
la utilidad obtenida jugando contra min ôptimo. ^Puede proponer un ârbol de juegos en 
el cual MAX puede mejorar utilizando una estrategia subôptima contra min subôptimo? 
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6.3 Considéré el juego de dos jugadores descrito en la Figura 6.14. 

a) Dibuje el ârbol de juegos completo, usando las convenciones siguientes: 

• Escriba cada estado como (s A , s B ) donde s A y s B denotan las posiciones sim- 
bolicas. 

• Ponga cada estado terminal en una caja cuadrada y escriba su valor de juego 
en un circulo. 

• Ponga los est ado s bucle (estados que y a aparecen sobre el camino a la raiz) 
en dobles cajas cuadradas. Ya que no esta claro como adjudicar valores a es¬ 
tados bucle, anote cada uno con un «?» en un circulo. 

b) Ahora marque cada nodo con su valor minimax hacia atrâs (también en un circu¬ 
lo). Explique como maneja los valores «?» y por qué. 

c) Explique por qué el algoritmo minimax estândar fallaria sobre este ârbol de jue¬ 
gos y brevemente esboce como podria arreglarlo, usando su respuesta en (b). 
/ Su algoritmo modificado proporciona las decisiones ôptimas para todos los jue¬ 
gos con bucles? 

d) Este juego de 4 cuadrados puede generalizarse a n cuadrados para cualquier 
n > 2. Demuestre que A gana si n es par y pierde si n es impar. 

6.4 Implemente los generadores de movimiento y las funciones de evaluacion para uno 
o varios de los juegos siguientes: Kalah, Otelo, damas y ajedrez. Construya un agente 
de juegos alfa-beta general que use su implementacion. Compare el efecto de incrementar 
la profundidad de la büsqueda, mejorando el orden de movimientos, y la mejora de la 
funciôn de evaluacion. / ; Cuâl es el factor de ramificacion eficaz para el caso idéal de la 
ordenacion perfecta de movimientos? 

6.5 Desarrolle una demostraciôn formai de la exactitud para la poda alfa-beta. Para ha- 
cer esto, considéré la situacion de la Figura 6.15. La pregunta es si hay que podar el nodo 
rij, qué es un nodo max y un descendiente del nodo n v La idea bâsica es podarlo si y solo 
si el valor minimax de n x puede demostrarse que es independiente del valor de n ; . 

a) El valor de n, esta dado por 

«i = min (n 2 , n 2l ..., n 2h ) 

Encuentre una expresion similar para n 2 y de ahi una expresiôn para n A en tér- 
minos de n-. 



Figura 6.14 La posicion de partida de un juego sencillo. El jugador A mueve primero. Los dos 
jugadores mueven por turno, y cada jugador debe mover su senal a un espacio vacio adyacente en 
una u otra direcciôn. Si el adversario ocupa un espacio adyacente, enfonces un jugador puede sal- 
tar sobre el adversario al siguiente espacio vacio si existe. (Por ejemplo, si A esta sobre 3 y S esta 
sobre 2, entonces A puede mover hacia atrâs a 1.) El juego se termina cuando un jugador alcanza 
el extremo opuesto del tablero. Si el jugador A alcanza el espacio 4 primero, el valor del juego a A 
es +1 ; si el jugador B alcanza el espacio 1 primero, entonces el valor del juego para A es — 1. 











214 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 



b) Sea lj el valor mmimo (o mâximo) de los nodos a la izquierda del nodo n i a pro- 
fundidad i, cuyo valor minimax es ya conocido. Del mismo modo, sea r el va¬ 
lor mmimo (o mâximo) de los nodos inexplorados de la derecha de n t a 
profundidad i. Rescriba la expresion para n I en términos de los valores de r ( y /,. 

c) Ahora reformule la expresion para demostrar que para afectar a n,, rij no debe 
exceder de una cierta cota obtenida de los valores de /,. 

d) Repita el proceso para el caso donde n- es un nodo min. 

6.6 Implemente el algoritmo minimax esperado y el algoritmo *-alfa-beta, descrito por 
Ballard (1983), para podar ârboles de juegos con nodos de posibilidad. Inténtelo sobre 
un juego como el backgammon y mida la eficacia de la poda *-alfa-beta. 

6.7 Demuestre que con una transformacion positiva lineal de valores de las hojas (es 
decir, transformando un valor x a ax + b donde a > 0), la opcion del movimiento per- 
manece sin alterar en un ârbol de juegos, aun cuando haya nodos posibilidad. 

6.8 Considéré el procedimiento siguiente para elegir movimientos en juegos con no¬ 
dos de posibilidad: 

• Genere algunas secuencias de lanzamientos de un dado (digamos, 50) a una pro¬ 
fundidad conveniente (digamos, 8). 

• Conocidos los lanzamientos del dado, el ârbol de juegos se hace determinista. Para 
cada secuencia de lanzamientos del dado, resuelva el ârbol de juegos determinis¬ 
ta que ha resultado utilizando alfa-beta. 

• Use los resultados para estimar el valor de cada movimiento y elegir el mejor. 
/Trabajarâ este procedimiento bien? /Por qué (no)? 

6.9 Describa e implemente un entorno de juegos multijugador en tiempo real, donde 
el tiempo es parte del estado del ambiente y a los jugadores se le dan asignaciones de 
tiempo fijas. 



Figura 6.15 Situacion cuando consideramos si hay que podar el nodo n,. 
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6.10 Describa o implemente las descripciones de los estados, generadores de movi- 
miento, test terminal, funciôn de utilidad y funciones de evaluaciôn para uno o varios 
de los juegos siguientes: monopoly, scrabble, bridge (asumiendo un contrato dado), y 
poker (elija su variedad favorita). 

6.11 Considéré con cuidado la interacciôn de acontecimientos de posibilidad e infor- 
maciôn parcial en cada uno de los juegos del Ejercicio 6.10. 

a) /Para cuâles es apropiado el minimax esperado estândar? Implemente el algo- 
ritmo y ejecütelo en su agente de juegos, con las modificaciones apropiadas al 
ambiente de juegos. 

b) /Para cuâl es apropiado el esquema descrito en el Ejercicio 6.8? 

c ) Discuta como podrfa tratar con el hecho que en algunos juegos, los jugadores 
no tienen el mismo conocimiento del estado actual. 

6.12 El algoritmo minimax supone que los jugadores mueven por turnos, pero en jue¬ 
gos de cartas como whist y bridge, el ganador de la baza anterior juega primero sobre la 
siguiente baza. 

a) Modifique el algoritmo para trabajar correctamente para estos juegos. Se supo¬ 
ne que esta disponible una funciôn GANADOR(baza) que hace un informe sobre 
qué carta gana una baza. 

b ) Dibuje el ârbol de juegos para el primer par de manos de la pagina 200. 

6.13 El programa de damas Chinook hace uso de bases de datos de final del juego, que 
proporcionan valores exactos para cada posiciôn con ocho o menos piezas. /Como po- 
drfan generarse taies bases de datos de manera eficiente? 

6.14 Discuta como la aproximaciôn estândar de juegos se aplicaria a juegos como te- 
nis, billar y croquet, que ocurren en un espacio de estado fisico continuo. 

6.15 Describa como los algoritmos minimax y alfa-beta cambian en juegos de suma 
no cero de dos jugadores en los que cada jugador tiene su propia funciôn utilidad. Po- 
driamos suponer que cada jugador sabe la funciôn de utilidad del otro. Si no hay res- 
tricciones sobre las dos utilidades terminales, /es posible podar algün nodo con alfa-beta? 

6.16 Suponga que tiene un programa de ajedrez que puede evaluar un millôn de no- 
dos por segundo. Décida una representaciôn de un estado del juego para almacenarlo en 
una tabla de transposiciones. /Sobre cuântas entradas puede poner en una tabla de 
500MB de memoria? /Sera suficiente très minutos de büsqueda para un movimiento? 
/Cuântas consultas de la tabla puede hacer en el tiempo utilizado para hacer una eva- 
luaciôn? Ahora suponga que la tabla de transposiciones es mâs grande que la que pue¬ 
de caber en memoria. /Sobre cuântas evaluaciones podrfa hacer en el tiempo utilizado 
para realizar una büsqueda en disco con un disco estândar? 



Agentes lôgicos 



Donde disenaremos agentes que pueden construit• representaciones del mundo, 
utilizar un proceso de inferencia para derivar nuevas representaciones del mundo, 
y emplear éstas para deducir qué hacer. 


En este capftulo se introducen los agentes basados en conocimiento. Los conceptos que 
discutiremos (la representaciôn del conocimiento y los procesos de razonamiento 
que permiten que éste evolucione) son centrales en todo el âmbito de la inteligencia ar- 
tificial. 

De algün modo, las personas conocen las cosas y realizan razonamientos. Tanto el 
conocimiento como el razonamiento son también importantes para los agentes artificiales, 
porque les permiten comportamientos con éxito que serfan muy dificiles de alcanzar me- 
diante otros mecanismos. Ya hemos visto como el conocimiento acerca de los efectos 
de las acciones permiten a los agentes que resuelven problemas actuar correctamente en 
entornos complejos. Un agente reflexivo solo podria hallar un camino de Arad a Buca¬ 
rest mediante la suerte del principiante. Sin embargo, el conocimiento de los agentes que 
resuelven problemas es muy especifico e inflexible. Un programa de ajedrez puede cal- 
cular los movimientos permitidos de su rey, pero no puede saber de ninguna manera que 
una pieza no puede estar en dos casillas diferentes al mismo tiempo. Los agentes basa¬ 
dos en conocimiento se pueden aprovechar del conocimiento expresado en formas muy 
genéricas, combinando y recombinando la informaciôn para adaptarse a diversos pro- 
positos. A veces, este proceso puede apartarse bastante de las necesidades del momen- 
to (como cuando un matemâtico demuestra un teorema o un astronomo calcula la 
esperanza de vida de la Tierra). 

El conocimiento y el razonamiento juegan un papel importante cuando se trata con 
entornos parcialmente observables. Un agente basado en conocimiento puede combinar 
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el conocimiento general con las percepciones reales para inferir aspectos ocultos del es- 
tado del mundo, antes de seleccionar cualquier acciôn. Por ejemplo, un médico diag- 
nostica a un paciente (es decir, infiere una enfermedad que no es directamente observable) 
antes de seleccionar un tratamiento. Parte del conocimiento que utiliza el médico esta 
en forma de réglas que ha aprendido de los libros de texto y sus profesores, y parte en 
forma de patrones de asociaciôn que el médico no es capaz de describir explicitamen- 
te. Si este conocimiento esta en la cabeza del médico, es su conocimiento. 

El entendimiento del lenguaje natural también necesita inferir estados ocultos, en con¬ 
crète, la intenciôn del que habla. Cuando escuchamos, «John vio el diamante a través 
de la ventana y lo codicio», sabemos que «lo» se refiere al diamante y no a la ventana 
(quizâ de forma inconsciente, razonamos con nuestro conocimiento acerca del papel re- 
lativo de las cosas). De forma similar, cuando escuchamos, «John lanzô el ladrillo a la 
ventana y se rompio», sabemos que «se» se refiere a la ventana. El razonamiento nos 
permite hacer frente a una variedad virtualmente infinita de manifestaciones utilizando 
un conjunto finito de conocimiento de sentido comün. Los agentes que resuelven pro- 
blemas presentan dificultades con este tipo de ambigüedad debido a que su représenta¬ 
tion de los problemas con contingencias es inherentemente exponencial. 

Nuestra principal razôn para estudiar los agentes basados en conocimiento es su 
flexibilidad. Ellos son capaces de aceptar tareas nuevas en forma de objetivos descritos 
explicitamente, pueden obtener râpidamente competencias informândose acerca del co¬ 
nocimiento del entorno o aprendiéndolo, y pueden adaptarse a los cambios del entorno 
actualizando el conocimiento relevante. 

En la Secciôn 7.1 comenzamos con el diseno general del agente. En la Secciôn 7.2 
se introduce un nuevo entorno muy sencillo, el mundo de wumpus, y se muestra la for¬ 
ma de actuar de un agente basado en conocimiento sin entrar en los detalles técnicos. 
Entonces, en la Secciôn 7.3, explicamos los principios generales de la lôgica. La lôgi- 
ca sera el instrumente principal para la representaciôn del conocimiento en toda la Par¬ 
te III de este libro. El conocimiento de los agentes lôgicos siempre es categôrico (cada 
proposiciôn acerca del mundo es verdadera o falsa, si bien, el agente puede ser agnôs- 
tico acerca de algunas proposiciones). 

La lôgica présenta la ventaja pedagôgica de ser un ejemplo sencillo de representa¬ 
ciôn para los agentes basados en conocimiento, pero tiene sérias limitaciones. En con¬ 
crète, gran parte del razonamiento llevado a cabo por las personas y otros agentes en 
entornos parcialmente observables se basa en manejar conocimiento que es incierto. La 
lôgica no puede representar bien esta incertidumbre, asi que trataremos las probabilidades 
en la Parte V, que si puede. Y en la Parte VI y la Parte VII trataremos otras representa- 
ciones, incluidas algunas basadas en matemâticas continuas como combinaciones de fun- 
ciones Gaussianas, redes neuronales y otras representaciones. 

En la Secciôn 7.4 de este capitulo se présenta una lôgica muy sencilla denominada 
lôgica proposicional. Aunque es mucho menos expresiva que la lôgica de primer or- 
den (Capitulo 8), la lôgica proposicional nos permitirâ ilustrar los conceptos fonda¬ 
mentales de la lôgica. En las secciones 7.5 y 7.6 describiremos la tecnologia, que esta 
bastante desarrollada, para el razonamiento basado en lôgica proposicional. Finalmen- 
te, en la secciôn 7.7 se combina el concepto de agente lôgico con la tecnologia de la lô¬ 
gica proposicional para la constmcciôn de unos agentes muy sencillos en nuestro ejemplo 
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del mundo de xvumpus. Se identifican ciertas deficiencias de la logica proposicional, que 
nos permitirân el desarrollo de lôgicas mas potentes en los capitulos siguientes. 


7.1 Agentes basados en conocimiento 


BASE DE 
CONOCIMIENTO 


SENTENCIA 


LENGUAJE DE 
REPRESENTACION 
DEL CONOCIMIENTO 


INFERENCIA 

AGENTES LOGICOS 


CONOCIMIENTO DE 
ANTECEDENTES 


El componente principal de un agente basado en conocimiento es su base de conoci- 
miento, o BC. Informalmente, una base de conocimiento es un conjunto de sentencias. 
(Aqui «sentencia» se utiliza como un término técnico. Es parecido, pero no idéntico, a 
las sentencias en inglés u otros lenguajes naturales.) Cada sentencia se expresa en un len- 
guaje denominado lenguaje de representaciôn del conocimiento y représenta alguna 
aserciôn acerca del mundo. 

Debe haber un mecanismo para anadir sentencias nuevas a la base de conocimiento, 
y uno para preguntar qué se sabe en la base de conocimiento. Los nombres estândar para 
estas dos tareas son Decir y Preguntar, respectivamente. Ambas tareas requieren reali- 
zar inferencia, es decir, derivar nuevas sentencias de las antiguas. En los agentes lôgicos, 
que son el tema principal de estudio de este capitulo, la inferencia debe cumplir con el re- 
quisito esencial de que cuando se Pregunta a la base de conocimiento, la respuesta debe 
seguirse de lo que se Ha dicho a la base de conocimiento previamente. Mas adelante, en 
el capitulo, seremos mas precisos en cuanto a la palabra «seguirse». Por ahora, tomate su 
significado en el sentido de que la inferencia no se inventaria cosas poco a poco. 

La Figura 7.1 muestra el esquema general de un programa de un agente basado en 
conocimiento. Al igual que todos nuestros agentes, éste recibe una percepcion como en- 
trada y devuelve una accion. El agente mantiene una base de conocimiento, BC, que ini- 
cialmente contiene algün conocimiento de antecedentes. Cada vez que el programa del 
agente es invocado, realiza dos cosas. Primero, Dice a la base de conocimiento lo que 
ha percibido. Segundo, Pregunta a la base de conocimiento qué accion debe ejecutar. 
En este segundo proceso de responder a la pregunta, se debe realizar un razonamiento 
extensivo acerca del estado actual del mundo, de los efectos de las posibles acciones, 
etcétera. Una vez se ha escogido la accion, el agente graba su elecciôn mediante un De¬ 
cir y ejecuta la accion. Este segundo Decir es necesario para permitirle a la base de co¬ 
nocimiento saber que la accion hipotética realmente se ha ejecutado. 


funcion AGENTE-BC(percepciôn) devuelve una accion 
variables estâticas: BC, una base de conocimiento 

f, un contador, inicializado a 0, que indica el tiempo 

DECIRCBC, CONSTRUIR-SENTENCIA-DE-PERCEPCIÔN(pe;rÉ'pc/d«, /)) 
accion <- Preguntar(SC, PEDiR-Acciôn(t)) 

DECIRCBC, CONSTRUIR-SENTENCIA-DE-AcCIÔN(acC;'d/î, 0) 
t «- t + 1 
devolver accion 


Figura 7.1 Un agente basado en conocimiento genérico. 
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NIVEL DE 
C0N0CIMIENT0 


NIVEL DE 
IMPLEMENTACIÔN 



ENFOQUE 

DECLARATIVO 


Los detalles del lenguaje de representaciôn estân ocultos en las dos funciones que 
implementan la interfaz entre los sensores, los accionadores, el nücleo de representaciôn 
y el sistema de razonamiento. Construir-Sentencia-De-Percepciôn toma una percep¬ 
tion y un instante de tiempo y devuelve una sentencia afirmando lo que el agente ha per- 
cibido en ese instante de tiempo. Pedir-Acciôn toma un instante de tiempo como entrada 
y devuelve una sentencia para preguntarle a la base de conocimiento qué acciôn se debe 
realizar en ese instante de tiempo. Los detalles de los mecanismos de inferencia estân 
ocultos en Decir y Preguntar. En las prôximas secciones del capitulo se mostrarân es¬ 
tas detalles. 

El agente de la Figura 7.1 se parece bastante a los agentes con estado interno des- 
critos en el Capitulo 2. Pero gracias a las definiciones de Decir y Preguntar, el agen¬ 
te basado en conocimiento no obtiene las acciones mediante un proceso arbitrario. Es 
compatible con una descripciôn al nivel de conocimiento, en el que solo necesitamos 
especificar lo que el agente sabe y los objetivos que tiene para establecer su comporta- 
miento. Por ejemplo, un taxi automatizado podrfa tener el objetivo de llevar un pasaje- 
ro al condado de Marin, y podrfa saber que esta en San Francisco y que el puente Golden 
Gâte es el ünico enlace entre las dos localizaciones. Entonces podemos esperar que el 
agente cruce el puente Golden Gâte porque él sabe que hacerlo le permitirâ alcanzar 
su objetivo. Fijate que este anâlisis es independiente de como el taxi trabaja al nivel de 
implementaciôn. Al agente no le debe importar si el conocimiento geogrâfico esta im- 
plementado mediante listas enlazadas o mapas de pixeles, o si su razonamiento se rea- 
liza mediante la manipulaciôn de textos o simbolos almacenados en registres, o mediante 
la propagaciôn de seriales en una red de neuronas. 

Tal como comentamos en la introducciôn del capitulo, uno puede construit• un agen¬ 
te basado en conocimiento simplemente Diciéndole al agente lo que necesita saber. El 
programa del agente, inicialmente, antes de que empiece a recibir percepciones, se cons- 
truye mediante la adiciôn, una a una, de las sentencias que representan el conocimien¬ 
to del entorno que tiene el disenador. El diseno del lenguaje de representaciôn que 
permita, de forma mas fâcil, expresar este conocimiento mediante sentencias simplifi- 
ca muchisimo el problema de la constmcciôn del agente. Este enfoque en la construc- 
ciôn de sistemas se denomina enfoque declarativo. Por el contrario, el enfoque procédural 
codifica los comportamientos que se desean obtener directamente en côdigo de progra- 
maciôn; mediante la minimizaciôn del papel de la representaciôn explicita y del razo¬ 
namiento se pueden obtener sistemas mucho mas eficientes. En la Secciôn 7.7 veremos 
agentes de ambos tipos. En los 70 y 80, defensores de los dos enfoques se enfrentaban 
en acalorados debates. Ahora sabemos que para que un agente tenga éxito su diseno debe 
combinar elementos declarativos y procédurales. 

A parte de Decirle al agente lo que necesita saber, podemos proveer a un agente ba¬ 
sado en conocimiento de los mecanismos que le permitan aprender por si mismo. Estos 
mecanismos, que se verân en el Capitulo 18, crean un conocimiento general acerca del 
entorno con base en un conjunto de percepciones. Este conocimiento se puede incorpo¬ 
rer a la base de conocimiento del agente y utilizar para su toma de decisiones. De esta 
manera, el agente puede ser totalmente autônomo. 

Todas estas capacidades (representaciôn, razonamiento y aprendizaje) se apoyan en 
la teorîa y tecnologia de la lôgica, desarrolladas a lo largo de los siglos. Sin embargo, 
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antes de explicar dichas teoria y tecnologia, crearemos un mundo sencillo que nos per- 
mitirâ ilustrar estos mecanismos. 


7.2 El mundo de ivumpus 


mundo de wumpus El mundo de wumpus es una cueva que esta compuesta por habitaciones conectadas me- 
diante pasillos. Escondido en algün lugar de la cueva esta el wumpus, una bestia que se 
corne a cualquiera que entre en su habitacion. El wumpus puede ser derribado por la flé¬ 
cha de un agente, y éste solo dispone de una. Algunas habitaciones contienen hoyos sin 
fondo que atrapan a aquel que déambula por dichas habitaciones (menos al wumpus, que 
es demasiado grande para caer en ellos). El ünico premio de vivir en este entorno es la 
posibilidad de encontrar una pila de oro. Aunque el mundo de wumpus pertenece mas 
al âmbito de los juegos por computador, es un entorno perfecto para evaluar los agen¬ 
tes inteligentes. Michael Genesereth fue el primero que lo propuso. 

En la Figura 7.2 se muestra un ejemplo del mundo de wumpus. La definicion préci¬ 
sa del entorno de trabajo, tal como sugerimos en el Capitulo 2, mediante la descripcion 
RE AS, es: 

• Rendimiento: +1.000 por recoger el oro, — 1.000 por caer en un hoyo o ser comi- 
do por el wumpus, — 1 por cada accion que se realice y —10 por lanzar la flécha. 

• Entorno: una matriz de 4 X 4 habitaciones. El agente siempre comienza en la ca- 
silla etiquetada por [1, 1], y orientado a la derecha. Las posiciones del oro y del 
wumpus se escogen de forma aleatoria, mediante una distribucion uniforme, a par¬ 
tir de todas las casillas menos la de salida del agente. Ademâs, con probabilidad 
0 ,2, cada casilla puede tener un hoyo. 

• Actuadores: el agente se puede mover hacia delante, girar a la izquierda 90°, o a 
la derecha 90°. El agente puede fallecer de muerte misérable si entra en una casi¬ 
lla en la que hay un hoyo o en la que esta el wumpus vivo. (No sucede nada malo, 
aunque huele bastante mal, si el agente entra en una casilla con un wumpus muer- 
to.) Si hay un muro en frente y el agente intenta avanzar, no sucede nada. La ac- 
ciôn Agarrar se puede utilizar para tomar un objeto de la misma casilla en donde 
se encuentre el agente. La accion Disparar se puede utilizar para lanzar una flé¬ 
cha en linea recta, en la misma direcciôn y sentido en que se encuentra situado el 
agente. La flécha avanza hasta que se choca contra un muro o alcanza al wumpus 
(y enfonces lo mata). El agente solo dispone de una flécha, asi que, solo tiene efec- 
to el primer Disparo. 

• Sensores: el agente dispone de cinco sensores, y cada uno le da una pequena in- 
formacion acerca del entorno. 

— El agente percibirâ un mal hedor si se encuentra en la misma casilla que el wum¬ 
pus o en las directamente adyacentes a él (no en diagonal). 

— El agente recibirâ una pequena brisa en las casillas directamente adyacentes 
donde hay un hoyo. 

— El agente verâ un resplandor en las casillas donde esta el oro. 
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— Si el agente intenta atravesar un muro sentira un golpe. 

— Cuando el wumpus es aniquilado emite un desconsolado grito que se puede oir 
en toda la cueva. 

Las percepciones que recibirâ el agente se representan mediante una lista de cin- 
co simbolos: por ejemplo, si el agente percibe un mal hedor o una pequena brisa, 
pero no ve un resplandor, no siente un golpe, ni oye un grito, el agente recibe la 
lista [Hedor, Brisa, Nada, Nada, Nada]. 

En el Ejercicio 7.1 se pide définir el entorno del wumpus a partir de las diferentes di- 
mensiones tratadas en el Capitulo 2. La principal dificultad para el agente es su igno- 
rancia inicial acerca de la configuracion del entorno; para superar esta ignorancia parece 
que se requiere el razonamiento lôgico. En muchos casos del mundo de wumpus, para 
el agente es posible obtener el oro de forma segura. En algunos casos, el agente debe es- 
coger entre volver a casa con las manos vacias o arriesgarse para encontrar el oro. Cer- 
ca del 21 por ciento de los casos son completamente injustos, ya que el oro se encuentra 
en un hoyo o rodeado de ellos. 

Vamos a ver un agente basado en conocimiento en el mundo de wumpus, exploran- 
do el entorno que se muestra en la Figura 7.2. La base de conocimiento inicial del agen¬ 
te contiene las réglas del entorno, tal como hemos listado anteriormente; en concreto, el 
agente sabe que se encuentra en la casilla [1, 1] y que ésta es una casilla segura. Vere- 
mos como su conocimiento evoluciona a medida que recibe nuevas percepciones y las 
acciones se van ejecutando. 

La primera percepciôn es [Nada, Nada, Nada, Nada, Nada], de la cual, el agente pue¬ 
de concluir que las casillas vecinas son seguras. La Figura 7.3(a) muestra el conocimiento 
del estado del agente en ese momento. En esta figura mostramos (algunas de) las sen- 
tencias de la base de conocimiento utilizando letras como la B (de brisa) y OK (de ca¬ 
silla segura, no hay hoyo ni esta el wumpus) situadas en las casillas adecuadas. En cambio, 
la Figura 7.2 muestra el mundo tal como es. 



12 3 4 


Figura 7.2 Un mundo de wumpus tfpico. El agente esta situado en la esquina inferior izquierda. 






















AGENTES LÔGICOS 223 


De los hechos, que no hay mal hedor ni brisa en la casilla [1, 1], el agente infiere 
que las casillas [1, 2] y [2, 1] estân libres de peligro. Entonces las marca con O K para 
indicar esta conclusion. Un agente que sea cauto solo se moverâ hacia una casilla en la 
que él sabe que esta OK. Supongamos que el agente décidé moverse hacia delante a la 
casilla [2,1], alcanzando la situacion de la Figura 7.3(b). 

El agente détecta una brisa en la casilla [2, 1], por lo tanto, debe haber un hoyo en 
alguna casilla vecina. El hoyo no puede estar en la casilla [1, 1], teniendo en cuenta las 
réglas del juego, asf que debe haber uno en la casilla [2, 2] o en la [3, 1], o en ambas. La 
étiqueta £P? de la Figura 7.3(b), nos indica que puede haber un posible hoyo en estas 
casillas. En este momento, solo se conoce una casilla que esta OK y que no ha sido vi- 
sitada aün. Asi que el agente prudente girarâ para volver a la casilla [1, 1] y entonces se 
moverâ a la [1, 2], 
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Figura 7.3 El primer paso dado por el agente en el mundo de wumpus. (a) La situacion inicial, 
después de la percepcion [ Nada, Nada, Nada, Nada, Nada\. (b) Después del primer movimiento, 
con la percepcion [Nada, Brisa, Nada, Nada, Nada], 


La nueva percepcion en la casilla [1, 2] es [Hedor, Nada, Nada, Nada, Nada\, obte- 
niendo el estado de conocimiento que se muestra en la Figura 7.4(a). El mal hedor en la 
[1,2] significa que debe haber un wumpus muy cerca. Pero el wumpus no puede estar 
en la [1, 1], teniendo en cuenta las réglas del juego, y tampoco puede estar en [2, 2] (o 
el agente habria detectado un mal hedor cuando estaba en la [2, 1]). Entonces el agente 
puede inferir que el wumpus se encuentra en la casilla [1, 3], que se indica con la éti¬ 
queta jW! Mas aün, la ausencia de Brisa en la casilla [1,2] implica que no hay un hoyo 
en la [2, 2], Como ya habiamos inferido que debia haber un hoyo en la casilla [2, 2] o 
en la [3, 1], éste debe estar en la [3, 1]. Todo esto es un proceso de inferencia realmen- 
te costoso, ya que debe combinar el conocimiento adquirido en diferentes instantes de 
tiempo y en distintas situaciones, para resolver la falta de percepciones y poder realizar 
cualquier paso crucial. La inferencia pertenece a las habilidades de muchos animales, 
pero es tipico del tipo de razonamiento que un agente lôgico realiza. 
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1X1 = Agente 
B = Brisa 
G = Resplandor, 
Oro 

OK = Casilla segura 
P = Hoyo 
S = Mal hedor 
V = Visitada 
W = Wumpus 


Figura 7.4 Los dos ültimos estados en el desairollo del juego. (a) Después del tercer movimien- 
to, con la percepcion [Hedor, Nada, Nada, Nada, Nada\. (b) Después del quinto movimiento, con 
la percepcion [Hedor, Brisa, Resplandor, Nada, Nada\. 
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El agente ha demostrado en este momento que no hay ni un hoyo ni un wumpus en 
la casilla [2, 2], asi que esta OK para desplazarse a ella. No mostraremos el estado de 
conocimiento del agente en [2, 2]; asumimos que el agente gira y se desplaza a [2, 3], 
tal como se muestra en la Figura 7.4(b). En la casilla [2, 3] el agente détecta un resplandor, 
enfonces el agente cogeria el oro y acabaria el juego. 

En cada caso en que el agente saca una conclusion a partir de la informaciôn que 
tiene disponible, se garantiza que dicha conclusion es correcta si la informaciôn dis¬ 
ponible también lo es. Esta es una propiedad fondamental del razonamiento lôgico. En 
lo que queda del capitulo vamos a describir como construir agentes lôgicos que pueden 
representar la informaciôn necesaria para sacar conclusiones similares a las que hemos 
descrito en los pârrafos anteriores. 


7.3 Logica 


Esta secciôn présenta un repaso de todos los conceptos fondamentales de la représenta¬ 
tion y el razonamiento lôgicos. Dejamos los detalles técnicos de cualquier clase con- 
creta de logica para la siguiente secciôn. En lugar de ello, utilizaremos ejemplos 
informales del mundo de wumpus y del âmbito familiar de la aritmética. Adoptamos este 
enfoque poco comün, porque los conceptos de la logica son bastante mas generales y 
bellos de lo que se piensa a priori. 

En la secciôn 7.1 dijimos que las bases de conocimiento se componen de sentencias. 
sintaxis Estas sentencias se expresan de acuerdo a la sintaxis del lenguaje de representaciôn, que 

especifica todas las sentencias que estân bien formadas. El concepto de sintaxis esta su- 
ficientemente claro en la aritmética: «x + y — 4» es una sentencia bien formada, mien- 
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SEMÂNTICA 

VALOR DE VERDAD 

MUNDO POSIBLE 

MODELO 


IMPUCACIÔN 


tras que «x2y + —» no lo es. Por lo general, la sintaxis de los lenguajes lôgicos (y la de 
los aritméticos, en cuanto al mismo tema) esta disenada para escribir libres y articulos. 
Hay literalmente docenas de diferentes sintaxis, algunas que utilizan muchas letras grie- 
gas y simbolos matemâticos complejos, otras basadas en diagramas con fléchas y bur- 
bujas visualmente muy atractivas. Y sin embargo, en todos estos casos, las sentencias 
de la base de conocimiento del agente son configuraciones fisicas reales (de las partes) 
del agente. El razonamiento implica generar y manipular estas configuraciones. 

Una logica también debe définir la semàntica del lenguaje. Si lo relacionamos con 
el lenguaje hablado, la semàntica trata el «significado» de las sentencias. En logica, esta 
définition es bastante mas précisa. La semàntica del lenguaje define el valor de verdad 
de cada sentencia respecta a cada mundo posible. Por ejemplo, la semàntica que se uti- 
liza en la aritmética especifica que la sentencia «x + y = 4» es verdadera en un mundo 
en el que x sea 2 e y sea 2, pero falsa en uno en el que x sea 1 e y sea l 1 . En las lôgicas 
clâsicas cada sentencia debe ser o bien verdadera o bien falsa en cada mundo posible, 
no puede ser lo uno y lo otro 2 . 

Cuando necesitemos ser mas precisos, utilizaremos el término modelo en lugar del 
de «mundo posible». (También utilizaremos la frase «m es un modelo de a» para indi- 
car que la sentencia a es verdadera en el modelo m.) Siempre que podamos pensar en 
los mundos posibles como en (potencialmente) entornos reales en los que el agente pue- 
da o no estar, los modelos son abstracciones matemâticas que simplemente nos permi- 
ten définir la verdad o falsedad de cada sentencia que sea relevante. Informalmente 
podemos pensar, por ejemplo, en que xey son el nümero de hombres y mujeres que es- 
tân sentados en una mesa jugando una partida de bridge, y que la sentencia x + y — 4 
es verdadera cuando los que estân jugando son cuatro en total; formalmente, los mode¬ 
los posibles son justamente todas aquellas posibles asignaciones de nümeros a las va¬ 
riables xey. Cada una de estas asignaciones indica el valor de verdad de cualquier 
sentencia aritmética cuyas variables son xey. 

Ahora que ya disponemos del concepto de valor de verdad, ya estamos preparados 
para hablar acerca del razonamiento lôgico. Este requiere de la relaciôn de implicaciôn 
logica entre las sentencias (la idea de que una sentencia se sigue lôgicamente de otra sen¬ 
tencia). Su notaciôn matemâtica es 


a |= /3 

para significar que la sentencia a implica la sentencia fi. La définition formai de im¬ 
plication es esta: a |= (3 si y solo si en cada modelo en el que a es verdadera, fi tam¬ 
bién lo es. Otra forma de definirla es que si a es verdadera, fi también lo debe ser. 
Informalmente, el valor de verdad de fi «esta contenido» en el valor de verdad de a. La 
relaciôn de implicaciôn nos es familiar en la aritmética; no nos disgusta la idea de que 
la sentencia x + y = 4 implica la sentencia 4 = x + y. Es obvio que en cada modelo en 


1 El lector se habrâ dado cuenta de la semejanza entre el concepto de valor de verdad de las sentencias y la 
satisfaction de restricciones del Capftulo 5. No es casualidad (los lenguajes de restricciones son en efecto 
lôgicas y la résolution de restricciones un tipo de razonamiento lôgico). 

2 La logica difusa, que se verâ en el Capftulo 14, nos permitirâ tratar con grados de valores de verdad. 
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el que x + y = 4 (como lo es el modelo en el que x es 2 e y es 2) también lo es para 4 
= x + y. Pronto veremos que una base de conocimiento puede ser considerada como 
una afirmacion, y a menudo hablaremos de que una base de conocimiento implica una 
sentencia. 

Ahora podemos aplicar el mismo tipo de anâlisis que utilizamos en la seccion ante- 
rior al mundo del wumpus. Si tomamos la situacion de la Figura 7.3(b): el agente no ha 
detectado nada en la casilla [1, 1], y ha detectado una brisa en la [2, 1], Estas percep- 
ciones, combinadas con el conocimiento del agente sobre las réglas que definen el fun- 
cionamiento del mundo de wumpus (la descripcion REAS de la pagina 221), constituyen 
su BC. El agente esta interesado (entre otras cosas) en si las casillas adyacentes [1, 2], 
[2, 2] y [3, 1] tienen hoyos sin fondo. Cada una de las très casillas pueden o no tener un 
hoyo, por lo tanto (al menos en este ejemplo) hay 2 3 = 8 modelos posibles. Tal como se 
muestran en la Figura 7.5 3 . 

La BC es falsa en los modelos que contradicen lo que el agente sabe (por ejemplo, 
la BC es falsa en cualquier modelo en el que la casilla [1, 2] tenga un hoyo), porque no 
ha detectado ninguna brisa en la casilla [1, 1]. De hecho, hay très modelos en los que la 
BC es verdadera, los que se muestran como subconjunto de los modelos de la Figura 7.5. 
Ahora consideremos las dos conclusiones: 

cq = «No hay un hoyo en la casilla [1, 2]». 
a 2 = «No hay un hoyo en la casilla [2, 2]». 



3 En la Figura 7.5 los modelos se muestran como mundos parciales, porque en realidad tan solo son asigna- 
ciones de verdadero y falso a sentencias como «hay un hoyo en la casilla [1, 2]», etc. Los modelos, desde el 
punto de vista matemâtico, no necesitan tener horribles wumpus etéreos ambulando en ellos. 
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Hemos rodeado (con lfnea discontinua) los modelos de a, y a 2 en las Figuras 7.5(a) 
y 7.5(b) respectivamente. Si observamos, podemos ver lo siguiente: 

en cada modelo en el que la BC es verdadera, a, también lo es. 

De aqui que BC (= a,: no hay un hoyo en la casilla [1,2]. También podemos ver que 

en algunos modelos en los que la BC es verdadera, a 2 es falsa. 

De aqui que BC a 2 : el agente no puede concluir que no haya un hoyo en la casilla [2, 
2], (Ni tampoco puede concluir que lo haya. 4 ) 

El ejemplo anterior no solo nos muestra el concepto de implicacion, sino, también 
cômo el concepto de implicacion se puede aplicar para derivar conclusiones, es decir, 
llevar a cabo la inferencia lôgica. El algoritmo de inferencia que se muestra en la Fi¬ 
gura 7.5 se denomina comprobaciôn de modelos porque enumera todos los modelos 
posibles y comprueba si a es verdadera en todos los modelos en los que la BC es ver¬ 
dadera. 

Para entender la implicacion y la inferencia nos puede ayudar pensar en el conjun- 
to de todas las consecuencias de la BC como en un pajar, y en a como en una aguja. La 
implicacion es como la aguja que se encuentra en el pajar, y la inferencia consiste en en- 
contrarla. Esta distinciôn se expresa mediante una notaciôn formai: si el algoritmo de 
inferencia i puede derivar a de la BC, entonces escribimos 

BC h,, a, 

que se pronuncia como «a se dériva de la BC mediante i» o «i dériva a de la BC». 

Se dice que un algoritmo de inferencia que dériva solo sentencias implicadas es sô- 
lido o que mantiene la verdad. La solidez es una propiedad muy deseable. Un proce- 
dimiento de inferencia no sôlido tan solo se inventaria cosas poco a poco (anunciaria el 
descubrimiento de agujas que no existirfan). Se puede observar fâcilmente que la com¬ 
probaciôn de modelos, cuando es aplicable 5 , es un procedimiento sôlido. 
completitud También es muy deseable la propiedad de completitud: un algoritmo de inferencia 

es compléta si puede derivar cualquier sentencia que esta implicada. En los pajares re- 
ales, que son de tamano finito, parece obvio que un examen sistemâtico siempre permite 
decidir si hay una aguja en el pajar. Sin embargo, en muchas bases de conocimiento, el 
pajar de las consecuencias es infinito, y la completitud pasa a ser una problemâtica im¬ 
portante 6 . Por suerte, hay procedimientos de inferencia completos para las lôgicas que 
son suficientemente expresivas para manejar muchas bases de conocimiento. 


SOLIDO 


MANTENIMIENTO DE 
LA VERDAD 


INFERENCIA LÔGICA 

COMPROBACIÔN DE 
MODELOS 


4 El agente podria calcular la probabiliclad de que haya un hoyo en la casilla [2, 2]; en el Capftulo 13 lo ve- 
remos. 

5 La comprobaciôn de modelos trabaja bien cuando el espacio de los modelos es finito (por ejemplo, en un 
mundo del wumpus de tamano de casillas fijo). Por el otro lado, en la aritmética, el espacio de modelos es 
infinito: aun limitândonos a los enteros, hay infïnitos pares de valores para x e y en la sentencia x + y = 4. 

6 Compârelo con el caso de la büsqueda en espacios infinitos de estados del Capftulo 3, en donde la büsqueda 
del primero en profundidad no es compléta. 






228 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 



DENOTACIÔN 


Hemos descrito un proceso de razonamiento en el que se garantiza que las conclu- 
siones sean verdaderas en cualquier mundo en el que las premisas lo sean; en concreto, 
si una BC es verdadera en el mundo real, entonces cualquier sentencia a que se dérivé 
de la BC mediante un procedimiento de inferencia sôlido también serâ verdadera en el 
mundo real. Asi, mientras que un proceso de inferencia opéra con la «sintaxis» (las con- 
figuraciones tïsicas internas, taies como los bits en los registres o los patrones de im- 
pulsos eléctricos en el cerebro) el proceso se corresponde con la relaciôn del mundo real 
segün la cual algün aspecto del mundo real es cierto 7 en virtud de que otros aspectos del 
mundo real lo son. En la Figura 7.6 se ilustra esta correspondencia entre el mundo y la 
representaciôn. 

El ültimo asunto que debe ser tratado mediante una computaciôn basada en agentes 
lôgicos es el de la denotaciôn (la conexion, si la hay, entre los procesos de razonamien¬ 
to lôgico y el entorno real en el que se encuentra el agente). En concreto, ;cômo sabe- 
mos que la BC es verdadera en el mundo real? (Después de todo, la BC solo es «sintaxis» 
dentro de la cabeza del agente.) Esta es una cuestiôn filosôfica acerca de la cual se han 
escrito muchos, mucMsimos libres. (Ver Capitulo 26.) Una respuesta sencilla es que los 
sensores del agente crean la conexion. Por ejemplo, nuestro agente del mundo de wum- 
pus dispone de un sensor de olores. El programa del agente créa una sentencia adecuada 
siempre que hay un olor. Entonces, siempre que esa sentencia esté en la base de conoci- 
miento serâ verdadera en el mundo real. Asf, el significado y el valor de verdad de las sen- 
tencias de las percepciones se definen mediante el proceso de los sensores y el de la 
construcciôn de las sentencias, activada por el proceso previo. <(Quc sucede con el resto 
del conocimiento del agente, tal como sus creencias acerca de que el wumpus causa mal 
hedor en las casillas adyacentes? Esta no es una representaciôn directa de una simple per- 
cepciôn, pero si es una régla general (derivada, quizâ, de la experiencia de las percepciones 
aunque no idéntica a una afrrmaciôn de dicha experiencia). Las réglas generales como ésta 
se generan mediante un proceso de construcciôn de sentencias denominado aprendiza- 
je, que es el tema que trataremos en la Parte VI. El aprendizaje es falible. Puede darse el 
caso en el que el wumpus cause mal hedor excepto el 29 defebrero en anos bisiestos, que 
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Figura 7.6 Las sentencias son configuraciones ffsicas del agente, y el razonamiento es el proce¬ 
so de construcciôn de nuevas configuraciones ffsicas a partir de las antiguas. El razonamiento 16- 
gico deberfa asegurar que las nuevas configuraciones representen aspectos del mundo que realmente 
se siguen de los aspectos que las antiguas configuraciones representan. 


7 Tal como escribiô Wittgenstein (1922) en su famoso Tractatus: «El mundo es cada cosa que es cierta». 
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es cuando toma su bano. Asi, la BC no séria verdadera en el mundo real, sin embargo, 
mediante procedimientos de aprendizaje buenos no hace falta ser tan pesimistas. 


7.4 Logica proposicional: una logica muy sencilla 


Ahora vamos a presentar una logica muy sencilla llamada logica proposicional 8 . Vamos 
a cubrir tanto la sintaxis como la semântica (la manera como se define el valor de ver- 
dad de las sentencias) de la logica proposicional. Luego trataremos la implicaciôn (la 
relaciôn entre una sentencia y la que se sigue de ésta) y veremos como todo ello nos 11e- 
va a un algoritmo de inferencia logica muy sencillo. Todo ello tratado, por supuesto, en 
el mundo de wumpus. 


Sintaxis 


SENTENCIAS 

ATÔMICAS 


SiMBOLO 

PROPOSICIONAL 


SENTENCIAS 

COMPLEJAS 

CONECTIVAS LOGICAS 

NEGACIÔN 

LITERAL 

CONJUNCIÔN 

DISYUNCION 


IMPLICACIÔN 

PREMISA 

CONCLUSION 


La sintaxis de la logica proposicional nos define las sentencias que se pueden construir. 
Las sentencias atômicas (es decir, los elementos sintâcticos indivisibles) se componen 
de un ünico simbolo proposicional. Cada uno de estos srmbolos représenta una propo- 
siciôn que puede ser verdadera o falsa. Utilizaremos letras mayüsculas para estos sim- 
bolos: P, Q, R, y siguientes. Los nombres de los srmbolos suelen ser arbitrarios pero a 
menudo se escogen de manera que tengan algün sentido mnemotécnico para el lector. 
Por ejemplo, podriamos utilizar W x 3 para representar que el wumpus se encuentra en la 
casilla [1,3]. (Recuerde que los srmbolos como IL, 3 son atômicos, esto es, IL, 1, y 3 no 
son partes significantes del simbolo.) Hay dos srmbolos proposicionales con significa- 
do fijado: Verdadero, que es la proposicion que siempre es verdadera; y Falso, que es la 
proposicion que siempre es falsa. 

Las sentencias complejas se construyen a partir de sentencias mas simples mediante 
el uso de las conectivas lôgicas, que son las siguientes cinco: 

-i (no). Una sentencia como 3 se denomina negaciôn de IL, 3 . Un literal pue¬ 
de ser una sentencia atômica (un literal positivo) o una sentencia atômica ne- 
gada (un literal negativo). 

a (y). Una sentencia que tenga como conectiva principal a, como es W x , a H 3 ,, se 
denomina conjunciôn; sus componentes son los conjuntores. 

v (o). Una sentencia que utiliza la conectiva v, como es (ILj 3 a H 3 3 ) v W 22 , es 
una disyunciôn de los disyuntores (IL, 3 a H ,, ) y W 2 2 . (Histôricamente, la co¬ 
nectiva v proviene de «vel» en Latin, que significa «o». Para mucha gente, es mas 
fâcil recordarla como la conjunciôn al rêvés.) 

=> (implica). Una sentencia como (W ] 3 a H 3l ) => ~W 22 se denomina implicaciôn 
(o condicional). Su premisa o antecedente es (W u a H î x ), y su conclusion o 
consecuente es ~>W 2 2 . Las implicaciones también se conocen como réglas o afrr- 


8 A la logica proposicional también se le denomina Logica Booleana, por el matemâtico George Boole 
(1815-1864). 
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maciones si-entonces. Algunas veces, en otros libres, el sîmbolo de la implica- 
ciôn se représenta mediante z> o 

bicondicional <=> (si y solo si). La sentencia W x 3 <=> ~W 22 es una bicondicional. 

En la Figura 7.7 se muestra una gramâtica formai de la lôgica proposicional; mira la pa¬ 
gina 984 si no estas familiarizado con la notaciôn BNF. 


Sentencia 
Sentencia Atômica 
Sîmbolo Proposicional 
Sentencia Compleja 


—> Sentencia Atômica \ Sentencia Compleja 
-> Verdadero | Falso | Sîmbolo Proposicional 
— P|Q|R|... 

—> -i Sentencia 
I (Sentencia a Sentencia) 

I (Sentencia v Sentencia ) 

I (Sentencia => Sentencia) 

I (Sentencia o Sentencia) 


Figura 7.7 Una gramâtica BNF (Backus-Naur Form) de sentencias en lôgica proposicional. 


Fljese en que la gramâtica es muy estricta respecto al uso de los paréntesis: cada sentencia 
constmida a partir de conectivas binarias debe estar encerrada en paréntesis. Esto asegura que 
la gramâtica no sea ambigua. También significa que tenemos que escribir, por ejemplo, 
((A a B) => C) en vez de A a B => C. Para mejorar la legibilidad, a menudo omitiremos pa¬ 
réntesis, apoyândonos en su lugar en un orden de precedencia de las conectivas. Es una pre- 
cedencia similar a la utilizada en la aritmética (por ejemplo, ab + c se lee ((ab) + c ) porque 
la multiplicaciôn tiene mayor precedencia que la suma). El orden de precedencia en la logi¬ 
ca proposicional (de mayor a menor) es: a, v, => y <=>. Asl, la sentencia 

-iPvQaR^S 


es équivalente a la sentencia 


((-’/>) V (g A S 

La precedencia entre las conectivas no resuelve la ambigüedad en sentencias como A a 
B a C, que se podrfa leer como ((A a B) a C) o como (A a (B a C )). Como estas dos 
lecturas significan lo mismo segün la semântica que mostraremos en la siguiente sec- 
ciôn, se permiten este tipo de sentencias. También se permiten sentencias como A v B 
vCoAoBoC. Sin embargo, las sentencias como A => B => C no se permiten, ya 
que su lectura en una direcciôn y su opuesta tienen significados muy diferentes; en este 
caso insistimos en la utilizaciôn de los paréntesis. Por ültimo, a veces utilizaremos cor- 
chetes, en vez de paréntesis, para conseguir una lectura de la sentencia mâs clara. 

Semântica 

Una vez especificada la sintaxis de la lôgica proposicional, vamos a définir su semân¬ 
tica. La semântica define las réglas para determinar el valor de verdad de una sentencia 
respecto a un modelo en concreto. En la lôgica proposicional un modelo define el va- 
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lor de verdad (verdadero o falso). Por ejemplo, si las sentencias de la base de conoci- 
miento utilizan los slmbolos proposicionales //, 2 , H 1 2 , y H ÎV enfonces un modelo po- 
sible séria 


m j = {H j 2 = falso, H 22 = falso, H 3 1 = verdadero} 

Con très slmbolos proposicionales hay 2 3 = 8 modelos posibles, exactamente los que 
aparecen en la Figura 7.5. Sin embargo, fljese en que gracias a que hemos concretado 
la sintaxis, los modelos se convierten en objetos puramente matemâticos sin tener ne- 
cesariamente una conexiôn al mundo de wumpus. H ] 2 es solo un slmbolo, podrla deno- 
tar tanto «hay un hoyo en la casilla [1, 2]», como «estaré en Paris hoy y manana». 

La semântica en lôgica proposicional debe especificar como obtener el valor de ver¬ 
dad de cualquier sentencia, dado un modelo. Este proceso se realiza de forma recursi- 
va. Todas las sentencias se construyen a partir de las sentencias atomicas y las cinco 
conectivas logicas; enfonces necesitamos establecer como définir el valor de verdad de 
las sentencias atomicas y como calcular el valor de verdad de las sentencias construidas 
con las cinco conectivas logicas. Para las sentencias atomicas es sencillo: 

• Verdadero es verdadero en todos los modelos y Falso es falso en todos los modelos. 

• El valor de verdad de cada simbolo proposicional se debe especificar directamente 
para cada modelo. Por ejemplo, en el modelo anterior m v H l 2 es falso. 

Para las sentencias complejas, tenemos réglas como la siguiente 

• Para toda sentencia s y todo modelo m, la sentencia -15 es verdadera en m si y solo 
si s es falsa en m. 

Este tipo de réglas reducen el câlculo del valor de verdad de una sentencia compleja al 
valor de verdad de las sentencias mas simples. Las réglas para las conectivas se pue- 
tabla de verdad den resumir en una tabla de verdad que especifica el valor de verdad de cada senten¬ 

cia compleja segün la posible asignacion de valores de verdad realizada a sus 
componentes. En la Figura 7.8 se muestra la tabla de verdad de las cinco conectivas lo¬ 
gicas. Utilizando estas tablas de verdad, se puede obtener el valor de verdad de cual¬ 
quier sentencia s segün un modelo m mediante un proceso de evaluacion recursiva muy 
sencillo. Por ejemplo, la sentencia ~>H 1 , a (H 22 v H, ,) evaluada segün m v da verda- 
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Figura 7.8 Tablas de verdad para las cinco conectivas logicas. Para utilizar la tabla, por ejemplo, 
para calcular el valor de P v Q, cuando P es verdadero y Q falso, primero mire a la izquierda en 
donde P es verdadera y Q es falsa (la tercera fila). Entonces mire en esa fila justo en la columna 
de P v Q para ver el resultado: verdadero. Otra forma de verlo es pensar en cada fila como en un 
modelo, y que sus entradas en cada fila dicen para cada columna si la sentencia es verdadera en ese 
modelo. 
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dero a (falso v verdadero) = verdadero a verdadero = verdadevo. El Ejercicio 7.3 pide 
que escriba el algoritmo ^ V-Vhrdad-LP?(.s\ m ) que debe obtener el valor de verdad de 
una sentencia 5 en lôgica proposicional segün el modelo m. 

Ya hemos comentado que una base de conocimiento esta compuesta por sentencias. 
Ahora podemos observar que esa base de conocimiento lôgica es una conjunciôn de di- 
chas sentencias. Es decir, sicomenzamos conuna BC vacfay ejecutamos Decir( 5C, 5j)... 
Decir(5C, 5 n ) enfonces tenemos BC = S { a ... a S n . Esto significa que podemos ma- 
nejar bases de conocimiento y sentencias de manera intercambiable. 

Los valores de verdad de «y», «o» y «no» concuerdan con nuestra intuicion, cuan- 
do los utilizamos en lenguaje natural. El principal punto de confusion puede presentar- 
se cuando P v Q es verdadero porque P lo es, Q lo es, o ambos lo son. Hay una conectiva 
diferente denominada «o exclusiva» («xor» para abreviar) que es falsa cuando los dos 
disyuntores son verdaderos 9 . No hay consenso respecto al simbolo que représenta la o 
exclusiva, siendo las dos alternativas v y ©. 

El valor de verdad de la conectiva => puede parecer incomprensible al principio, ya 
que no encaja en nuestra comprension intuitiva acerca de «P implica Q» o de «si P en¬ 
fonces Q». Para una cosa, la lôgica proposicional no requiere de una relaciôn de causa- 
lidad o relevancia entre P y Q. La sentencia «que 5 sea impar implica que Tokio es la 
capital de Japon» es una sentencia verdadera en lôgica proposicional (bajo una inter- 
pretaciôn normal), aunque pensândolo es, decididamente, una frase muy rara. Otro pun¬ 
to de confusion es que cualquier implicaciôn es verdadera siempre que su antecedente 
sea falso. Por ejemplo, «que 5 sea par implica que Sam es astuto» es verdadera, inde- 
pendientemente de que Sam sea o no astuto. Parece algo estrafalario, pero tiene sentido 
si piensa acerca de «P => Q» como si dijera, «si P es verdadero, enfonces estoy afirmando 
que Q es verdadero. De otro modo, no estoy haciendo ninguna afirmaciôn.» La ünica 
manera de hacer esta sentencia falsa es haciendo que P sea cierta y Q falsa. 

La tabla de verdad de la bicondicional P <=> Q muestra que la sentencia es verdade¬ 
ra siempre que P => Q y Q => P lo son. En lenguaje natural a menudo se escribe como 
«P si y solo si Q» o «P si Q». Las réglas del mundo de wumpus se describen mejor uti- 
lizando la conectiva o. Por ejemplo, una casilla tiene corriente de aire si alguna casi- 
11 a vecina tiene un hoyo, y una casilla tiene corriente de aire solo si una casilla vecina 
tiene un hoyo. De esta manera necesitamos bicondicionales como 

611 <=> (H j 2 v H 2 1 ), 

en donde B, l significa que hay una brisa en la casilla [1,1]. Fijese en que la implicaciôn 

B ei => (#1,2 v H i,ù 

es verdadera, aunque incompleta, en el mundo de wumpus. Esta implicaciôn no descar- 
ta modelos en los que B, , sea falso y H l2 sea verdadero, hecho que violaria las réglas 
del mundo de wumpus. Otra forma de observar esta incompletitud es que la implicaciôn 
necesita la presencia de hoyos si hay una corriente de aire, mientras que la bicondicio¬ 
nal ademâs necesita la ausencia de hoyos si no hay ninguna corriente de aire. 


9 En latin esta la palabra especifica aut para la o exclusiva. 
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Una base de conocimiento sencilla 

Ahora que ya hemos definido la semântica de la lôgica proposicional, podemos cons- 
truir una base de conocimiento para el mundo de wumpus. Para simplificar, solo trata- 
remos con hechos y réglas acerca de hoyos; dejamos el tratamiento del wumpus como 
ejercicio. Vamos a proporcionar el conocimiento suficiente para llevar a cabo la inferencia 
que se tratô en la Secciôn 7.3. 

Primero de todo, necesitamos escoger nuestro vocabulario de simbolos proposicio- 
nales. Para cada i,j : 

• Hacemos que H t j sea verdadero si hay un hoyo en la casilla [i,j]. 

• Hacemos que B fj sea verdadero si hay una corriente de aire (una brisa) en la casi¬ 
lla [i,j], 

La base de conocimiento contiene, cada una etiquetada con un identificador, las siguientes 
sentencias: 

• No hay ningün hoyo en la casilla [1, 1], 

Rr -'H n 

• En una casilla se siente una brisa si y solo si hay un hoyo en una casilla vecina. 
Esta régla se ha de especificar para cada casilla; por ahora, tan solo incluimos las 
casillas que son relevantes: 

R 2 : B 31 <=> (H l 2 v H 2 j) 

Rÿ B 21 <=> (H u v H 2 2 v H 3 j) 

• Las sentencias anteriores son verdaderas en todos los mundos de wumpus. Ahora 
incluimos las percepciones de brisa para las dos primeras casillas visitadas en el 
mundo concreto en donde se encuentra el agente, llegando a la situaciôn que se 
muestra en la Figura 7.3(b). 

Rp -ifi u 

R ÿ R 2,1 

Entonces, la base de conocimiento esta compuesta por las sentencias R t hasta R 5 . La 
BC también se puede representar mediante una ünica sentencia (la conjunciôn R { a R 2 
a R 3 a R 4 a R 5 ) porque dicha sentencia aserta que todas las sentencias son verdaderas. 


Inferencia 

Recordemos que el objetivo de la inferencia lôgica es decidir si BC |= a para alguna 
sentencia a. Por ejemplo, si se deduce H 12 . Nuestro primer algoritmo para la inferen¬ 
cia sera una implementaciôn directa del concepto de implicaciôn: enumerar los mode- 
los, y averiguar si a es verdadera en cada modelo en el que la BC es verdadera. En la 
lôgica proposicional los modelos son asignaciones de los valores verdadero yfalso so¬ 
bre cada simbolo proposicional. Volviendo a nuestro ejemplo del mundo de wumpus, 
los simbolos proposicionales relevantes son R,,, B, v H lv H l „ H 2 ,, H 22 y H 3 r Con es- 
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tos siete simbolos, tenemos 2 7 = 128 modelos posibles; y en très de estos modelos, la 
BC es verdadera (Figura 7.9). En esos très modelos -i H { 2 es verdadera, por lo tanto, no 
hay un hoyo en la casilla [1, 2], Por el otro lado, H, 2 es verdadera en dos de esos très 
modelos y falsa en el tercero, enfonces todavia no podemos decir si hay un hoyo en la 
casilla [2, 2], 

La Figura 7.9 reproduce mas detalladamente el razonamiento que se mostraba en la 
Figura 7.5. En la Figura 7.10 se muestra un algoritmo general para averiguar la impli- 
cacion en lôgica proposicional. De forma similar al algoritmo de Bltsqueda-Con-back- 
tracking de la pagina 86, ^Implicaciôn-En-TV? Realiza una enumeraciôn recursiva de 
un espacio finito de asignaciones a variables. El algoritmo es sôlido porque implemen- 
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Figura 7.9 Una tabla de verdad construida para la base de conocimiento del ejemplo. La BC es verdadera si R l hasta 

R 5 son verdaderas, cosa que sucede en très de las 128 filas. En estas très filas, H l 2 es falsa, asf que no 

hay ningün hoyo 

en la casilla [1,2]. Por otro lado, puede haber (o no) un hoyo en la casilla [2, 2]. 






funciôn ,Tmplicaciôn-En-TV?(BC, a) devuelve verdadero o [aIsa 

entradas: BC, la base de conocimiento, una sentencia en lôgica proposicional 
a, la sentencia implicada, una sentencia en lôgica proposicional 

simbolos <— una lista de simbolos proposicionales de la BC y a 
devuelve Comprobar-TV (BC, a, simbolos, [ ]) 

funciôn Comprobar-TV(BC, a, simbolos, modelo) devuelve verdadero ofalso 
si iWACÎAl(simboIos) entonces 

si ^Verdadero-LP?(BC, modelo ) entonces devuelve ^Verdadero-LP?(û!, modelo) 
sino devuelve verdadero 
sino hacer 

P <— Primero (simbolos)', resto <— Resto (simbolos) 
devuelve Chequear-T V(BC, a, resto, Extender(P, verdadero, modelo)) y 
Comprobar-T V(BC, a, resto, ExtenderIP./û/so, modelo)) 


Figura 7.10 Un algoritmo de enumeraciôn de una tabla de verdad para averiguar la implicaciôn 
proposicional. TV viene de tabla de verdad. ^Verdadero-LP? Devuelve verdadero si una senten¬ 
cia es verdadera en un modelo. La variable modelo représenta un modelo parcial (una asignaciôn 
realizada a un subconjunto de las variables). La llamada a la funciôn Extender(P, verdadero, mo¬ 
delo) devuelve un modelo parcial nuevo en el que P tiene el valor de verdad verdadero. 
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ta de forma directa la definiciôn de implicaciôn, y es completo porque trabaja para cual- 
quier BC y sentencia a, y siempre fmaliza (solo hay un conjunto finito de modelos a ser 
examinados). 

Por supuesto, que «conjunto finito» no siempre es lo mismo que «pequeno». Si la 
BC y a contienen en total n simbolos, entonces tenemos 2" modelos posibles. Asi, la com- 
plejidad temporal del algoritmo es 0(2"). (La complejidad espacial solo es 0(n) porque 
la enumeraciôn es en primera en profundidad.) Mas adelante, en este capitulo, veremos 
algoritmos que en la prâctica son mucho mas eficientes. Desafortunadamente, cada al¬ 
goritmo de inferencia que se conoce en lôgica proposicional tiene un caso peor, cuya 
complejidad es exponencial respecto al tamano de la entrada. No esperamos mejorar- 
lo, ya que demostrar la implicaciôn en lôgica proposicional es un problema co-NP-com- 
pleto. ( Véase Apéndice A.) 


Equivalencia, validez y satisfacibilidad 

Antes de que nos sumerjamos en los detalles de los algoritmos de inferencia lôgica ne- 
cesitaremos algunos conceptos adicionales relacionados con la implicaciôn. Al igual que 
la implicaciôn, estos conceptos se aplican a todos los tipos de lôgica, sin embargo, se en- 
tienden mas fâcilmente para una en concreto, como es el caso de la lôgica proposicional. 

El primer concepto es la equivalencia lôgica: dos sentencias a y (3 son équivalen¬ 
tes lôgicamente si tienen los mismos valores de verdad en el mismo conjunto de mode¬ 
los. Este concepto lo representamos con a <=> (3. Por ejemplo, podemos observar 
fâcilmente (mediante una tabla de verdad) que P a Q y Q a P son équivalentes lôgica¬ 
mente. En la Figura 7.11 se muestran otras equivalencias. Estas juegan el mismo papel 
en la lôgica que las igualdades en las matemâticas. Una definiciôn alternativa de equi¬ 
valencia es la siguiente: para dos sentencias a y f3 cualesquiera, 

a = f3 si y solo si a\= f3y /3\= a 
(Recuerde que (= signifie a implicaciôn.) 


(a a /3) 
(av/3) 
((a a j8) a y) 
((a v j8) v y) 
_, ( _, a) 
(a=>/3) 
(a=>/3) 
(a o /3) 
-i(a a (3) 
-i(a v p) 
(a a (j8 v y)) 
(a v (j8 a y)) 


(/3 a a) Conmutatividad de a 

(/3 v a) Conmutatividad de v 

(a a (p a y)) Asociatividad de a 

(a v (/3 v y)) Asociatividad de v 

a Eliminacion de la doble negaciôn 

(-i/3 => -ia) Contraposiciôn 

(-ia v /3) Eliminacion de la implicaciôn 

((a => P) a (/3 => a)) Eliminacion de la bicondicional 

(-ia v -i/3) Ley de Morgan 

(-ia a -i/3) Ley de Morgan 

((a a p) v (a a -y)) Distribuciôn de a respecto a v 
((a v p) a (a v -y)) Distribuciôn de v respecto a a 


Figura 7.11 Equivalencias lôgicas. Los simbolos a, P y y se pueden sustituir por cualquier sen¬ 
tencia en lôgica proposicional. 
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SATISFACE 
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El segundo concepto que necesitaremos es el de validez. Una sentencia es valida si es 
verdadera en todos los modelos. Por ejemplo, la sentencia P v ~<P es una sentencia vali¬ 
da. Las sentencias validas también se conocen como tautologias, son necesariamente ver- 
daderas y por lo tanto varias de significado. Como la sentencia Verdadero es verdadera en 
todos los modelos, toda sentencia valida es lôgicamente équivalente a Verdadero. 

/ ; Qué utilidad tienen las sentencias validas? De nuestra definiciôn de implicaciôn po- 
demos derivar el teorema de la deducciôn, que ya se conoria por los Griegos antiguos: 

Para cualquier sentencia a y /3, a f= /3 si y solo si la sentencia (a=> (3) es vâlida. 

(En el Ejercicio 7.4 se pide demostrar una sérié de aserciones.) Podemos pensar en el 
algoritmo de inferencia de la Figura 7.10 como en un proceso para averiguar la validez 
de (BC => a). A la inversa, cada sentencia que es una implicaciôn vâlida représenta una 
inferencia correcta. 

El ültimo concepto que necesitaremos es el de satisfacibilidad. Una sentencia es sa- 
tisfactoria si es verdadera para algün modelo. Por ejemplo, en la base de conocimiento 
ya mostrada, (/?, a R , a R , a R a a R, ) es satisfacible porque hay très modelos en los 
que es verdadera, tal como se muestra en la Figura 7.9. Si una sentencia a es verdade¬ 
ra en un modelo m, entonces decimos que m satisface a, o que m es un modelo de a. 
La satisfacibilidad se puede averiguar enumerando los modelos posibles hasta que uno 
satisface la sentencia. La determinaciôn de la satisfacibilidad de sentencias en lôgica pro- 
posicional fue el primer problema que se demostrô que era NP-completo. 

Muchos problemas en las ciencias de la computaciôn son en realidad problemas de 
satisfacibilidad. Por ejemplo, todos los problemas de satisfacciôn de restricciones del 
Capitulo 5 se preguntan esencialmente si un conjunto de restricciones se satisfacen dada 
una asignaciôn. Con algunas transformaciones adecuadas, los problemas de büsqueda 
también se pueden resolver mediante satisfacibilidad. La validez y la satisfacible estân 
mtimamente relacionadas: a es vâlida si y solo si ->a es insatisfacible', en contraposi- 
ciôn, a es satisfacible si y solo si ->a no es vâlida. 

a\~ [3 si y solo si la sentencia (a a -i/3) es insatisfactoria. 

La demostraciôn de (3 a partir de a averiguando la insatisfacibilidad de ( a a -i j3) se co¬ 
rresponde exactamente con la técnica de demostraciôn en matemâticas de la reductio ad 
absurdum (que literalmente se traduce como «reducciôn al absurdo»). Esta técnica tam¬ 
bién se denomina demostraciôn mediante refutaciôn o demostraciôn por contradicciôn. 
Asumimos que la sentencia /3 es falsa y observamos si se llega a una contradicciôn con 
las premisas en a. Dicha contradicciôn es justamente lo que queremos expresar cuando 
decimos que la sentencia (a a —i/ 3) es insatisfacible. 


7.5 Patrones de razonamiento en lôgica 
proposicional 


Esta secciôn cubre los patrones estândar de inferencia que se pueden aplicar para deri¬ 
var cadenas de conclusiones que nos llevan al objetivo deseado. Estos patrones de infe- 
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REGLAS DE 
INFERENCIA 

MODUS PONENS 


ELIMINACIÔN-a 


rencia se denominan réglas de inferencia. La régla mas conocida es la llamada Modus 
Ponens que se escribe como sigue: 

a => / 3 , a 

p 

La notaciôn nos dice que, cada vez que encontramos dos sentencias en la forma a^> (3 
y a, entonces la sentencia (3 puede ser inferida. Por ejemplo, si tenemos ( WumpusEn- 
Frente a WumpusVivo) => Disparar y (WumpusEnFrente a WumpusVivo), entonces se 
puede inferir Disparar. 

Otra régla de inferencia ütil es la Eliminaciôn-A, que expresa que, de una conjun- 
ciôn se puede inferir cualquiera de sus conjuntores: 

a a (3 
a 

Por ejemplo, de {WumpusEnFrente a WumpusVivo), se puede inferir WumpusVivo. 

Teniendo en cuenta los posibles valores de verdad de a y (3 se puede observar fâcil- 
mente, de una sola vez, que el Modus Ponens y la Eliminaciôn-A son réglas solidas. Es¬ 
tas réglas se pueden utilizar sobre cualquier instancia en la que es aplicable, generando 
inferencias solidas, sin la necesidad de enumerar todos los modelos. 

Todas las equivalencias lôgicas de la Figura 7.11 se pueden utilizar como réglas de 
inferencia. Por ejemplo, la equivalencia de la eliminaciôn de la bicondicional nos lleva 
a las dos réglas de inferencia 

a <=> f3 (a => f3) a ((3 => a) 

{a => (3) a {(3 => a) ^ a <=> (3 

Pero no todas las réglas de inferencia se pueden usar, como ésta, en ambas direcciones. 
Por ejemplo, no podemos utilizar el Modus Ponens en la direcciôn opuesta para obte- 
ner a^jSyaa partir de (3. 

Veamos como se pueden usar estas réglas de inferencia y equivalencias en el mun- 
do de wumpus. Comenzamos con la base de conocimiento contcnicndo R t a R 5 , y mos- 
tramos como demostrar ->H { 2 , es decir, que no hay un hoyo en la casilla [1, 2]. Primero 
aplicamos la eliminaciôn de la bicondicional a R, para obtener 

R 6 : (B u => (H l 2 v H 2 l )) a ((H 12 v H 21 ) => B u ) 

Entonces aplicamos la Eliminaciôn-A a R 6 para obtener 

Rp ((// 12 vtf 2I )=>B u ) 

Y por la equivalencia lôgica de contraposiciôn obtenemos 

R X- ( nfi U^#l,2 V ^2,l)) 

Ahora aplicamos el Modus Ponens con R 8 y la percepciôn R 4 (por ejemplo, j), para 
obtener 


R 9 : -'(H l 2 v 7/ 2 l ) 
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Finalmente, aplicamos la ley de Morgan, obteniendo la conclusion 

* 10 = 

Es decir, ni la casilla [1, 2] ni la [2, 1] contienen un hoyo. 

A la derivaciôn que hemos realizado (una secuencia de aplicaciones de réglas de in- 
ferencia) se le denomina una prueba (o demostraciôn). Obtener una prueba es muy se- 
mejante a encontrar una solucion en un problema de büsqueda. De hecho, si la funciôn 
sucesor se define para generar todas las aplicaciones posibles de las réglas de inferen- 
cia, enfonces todos los algoritmos de büsqueda del Capitulo 3 se pueden utilizar para 
obtener una prueba. De esta manera, la büsqueda de pruebas es una alternativa a tener 
que enumerar los modelos. La büsqueda se puede realizar hacia delante a partir de la base 
de conocimiento inicial, aplicando las réglas de inferencia para derivar la sentencia ob- 
jetivo, o hacia atrâs, desde la sentencia objetivo, intentando encontrar una cadena de ré¬ 
glas de inferencia que nos lleven a la base de conocimiento inicial. Mas adelante, en esta 
seccion, veremos dos familias de algoritmos que utilizan estas técnicas. 

El hecho de que la inferencia en logica proposicional sea un problema NP-comple- 
to nos hace pensar que, en el peor de los casos, la büsqueda de pruebas va a ser no mu- 
cho mas eficiente que la enumeraciôn de modelos. Sin embargo, en muchos casos 
prâcticos, encontrar una prueba puede ser altamente eficiente simplemente porque elpro- 
ceso puede ignorar las proposiciones irrelevantes, sin importai- cuântas de éstas haya. 
Por ejemplo, la prueba que hemos visto que nos llevaba a —i//j 2 a ~'H 1 , no utiliza las pro¬ 
posiciones B 2V H jj, Ht 2 o H 31 . Estas proposiciones se pueden ignorar porque la 
proposicion objetivo 2/ 2 solo aparece en la sentencia R 4 , y la otra proposicion de R 4 solo 
aparece también en Rp, por lo tanto, R v R 3 yR 5 no juegan ningün papel en la prueba. Su- 
cederia lo mismo aunque anadiésemos un millôn de sentencias a la base de conocimiento; 
por el otro lado, el algoritmo de la tabla de verdad, aunque sencillo, quedarfa saturado 
por la explosion exponencial de los modelos. 

Esta propiedad de los sistemas lôgicos en realidad proviene de una caracteristica mu- 
cho mas fundamental, denominada monôtono. La caracteristica de monotonismo nos 
dice que el conjunto de sentencias implicadas solo puede aumentar (pero no cambiar) 
al anadirse informacion a la base de conocimiento 10 . Para cualquier sentencia a y fi, 

si BC |= a enfonces BC a fi\= a 

Por ejemplo, supongamos que la base de conocimiento contiene una asercion adicional 
fi, que nos dice que hay exactamente ocho hoyos en el escenario. Este conocimiento po- 
drfa ayudar al agente a obtener conclusiones adicionales, pero no puede invalidai - nin- 
guna conclusion a ya inferida (como la conclusion de que no hay un hoyo en la casilla 
[1, 2]). El monotonismo permite que las réglas de inferencia se puedan aplicar siempre 
que se hallen premisas aplicables en la base de conocimiento; la conclusion de la régla 
debe permanecer sin hacer caso de qué mâs hay en la base de conocimiento. 


10 Las lôgicas No Monôtonas, que violan la propiedad de monotonismo, modelan una caracteristica propia 
del razonamiento humano: cambiar de opinion. Estas lôgicas se verân en la Secciôn 10.7. 
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Resoluciôn 

Hemos argumentado que las réglas de inferencia vistas hasta aqui son sôlidas, pero no 
hemos visto la cuestiôn acerca de lo complète» de los algoritmos de inferencia que las 
utilizan. Los algoritmos de büsqueda como el de büsqueda en profundidad iterativa (pa¬ 
gina 87) son completos en el sentido de que éstos encontrarân cualquier objetivo alcan- 
zable, pero si las réglas de inferencia no son adecuadas, enfonces el objetivo no es 
alcanzable; no existe una prueba que utilice solo esas réglas de inferencia. Por ejemplo, 
si suprimimos la régla de eliminaciôn de la bicondicional la prueba de la seccion ante- 
rior no avanzaria. En esta seccion se introduce una régla de inferencia sencilla, la reso¬ 
luciôn, que nos lleva a un algoritmo de inferencia completo cuando se empareja a un 
algoritmo de büsqueda completo. 

Comenzaremos utilizando una version sencilla de la resoluciôn aplicada al mundo 
de wumpus. Consideremos los pasos que nos llevaban a la Figura 7.4(a): el agente vuel- 
ve de la casilla [2, 1] a la [1, 1] y enfonces va a la casilla [1,2], donde percibe un hedor, 
pero no percibe una corriente de aire. Ahora anadimos los siguientes hechos a la base 
de conocimiento: 


R 11 : * B \2 

R 12 ' R 1,2 ^ (^ 1,1 V ^ 2,2 V ^ 1 , 3 ) 

Mediante el mismo proceso que nos llevô antes a R 10 , podemos derivar que no hay nin- 
gün hoyo en la casilla [2, 2] o en la [1, 3] (recuerde que se sabe que en la casilla no ha- 
bfa ninguna percepciôn de hoyos): 


7?i 3 . _| H 22 

R 14 * _, H U 

También podemos aplicar la eliminaciôn de la bicondicional a la R 3 , seguido del Modus 
Ponens con la R 5 , para obtener el hecho de que puede haber un hoyo en la casilla [1, 1], 
la [2, 2] o la [3, 1]: 

^îs- Hi.i v H 22 v H 3 1 

Ahora viene la primera aplicaciôn de la régla de resoluciôn: el literal _| H 22 de la R l3 se 
resuelve con el literal H, 2 de la R ]5 , dando el resolvente 

R\6- H u vH 31 

En lenguaje natural: si hay un hoyo en la casilla [1, 1], o en la [2, 2], o en la [3, 1], y no 
hay ninguno en la [2, 2], enfonces hay uno en la [1, 1] o en la [3, 1]. De forma pareci- 
da, el literal —>Hj , de la R l se resuelve con el literal H , de la R l6 , dando 

R»!' H 31 
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En lenguaje natural: si hay un hoyo en la casilla [1, 1] o en la [3, 1], y no hay ninguno 
en la [1,1], entonces hay uno en la [3,1]. Los ültimos dos pasos de inferencia son ejem- 
plo de la régla de inferencia de resoluciôn unitaria, 

m 

^v-v^v^v-v^ 

en donde cada £ es un literal y £ t y m son literales complementarios (por ejemplo, uno 
es la negaciôn del otro). Asf, la resoluciôn unitaria toma una clâusula (una disyunciôn 
de literales) y un literal para producir una nueva clâusula. Ffjese en que un literal se pue- 
de ver como una disyunciôn con un solo literal, conocido como clâusula unitaria. 

La régla de resoluciôn unitaria se puede generalizar a la régla general de resoluciôn, 


/jV-v/j, m 1 v ■ • • v m n 

£ x v ■ • • v £ i _ [ v £ i+x v ■ • • v £ k v m x v • • • v m j _ l v m j+ , v • • • v m n 

donde £ t y m son literales complementarios. Si solo tratâramos con clâusulas de longi- 
tud dos, podrfamos escribir la régla asf 


£ x v £ v ->/ 2 v £ 3 
£ x v tf 3 


Es decir, la resoluciôn toma dos clâusulas y généra una clâusula nueva con los literales 
de las dos clâusulas originales menos los literales complementarios. Por ejemplo, ten- 
drfamos 


FACTORIZACIÔN 



P U V P \V ^ P U V ^ P 2,2 

P 3,l V ~' P 2,2 


Hay otro aspecto técnico relacionado con la régla de resoluciôn: la clâusula résultante 
deberfa contener solo una copia de cada literal 11 . Se le llama factorizaciôn al proceso 
de eliminar las copias multiples de los literales. Por ejemplo, si resolvemos (A v B) con 
( A v -i B) obtenemos ( A v A), que se reduce a A. 

La solidez de la régla de resoluciôn se puede ver fâcilmente si consideramos el lite¬ 
ral £ r Si £ x es verdadero, entonces m j es falso, y de aquf m x v v m j _ l v m j+l v ••• v 
m n debe ser verdadero, porque se da m x v • • • v m n . Si £ t es falso, entonces €, v ■■■ v £ i _ l 
v £ i+l v ■ ■ • v £ k debe ser verdadero, porque se da tfj v • • • v £ k . Entonces / es o bien ver¬ 
dadero o bien falso, y asf, se obtiene una de las dos conclusiones, exactamente tal como 
establece la régla de resoluciôn. 

Lo que es mâs sorprendente de la régla de resoluciôn es que créa la base para una 
familia de procedimientos de inferencia completos. Cualquier algoritmo de bûsqueda 
completo, aplicando solo la régla de resoluciôn, pue de derivar cualquier conclusion im- 
plicada por cualquier base de conocimiento en lôgica proposicional. Pero hay una ad- 
vertencia: la resoluciôn es compléta en un sentido muy especializado. Dado que A sea 


11 Si una clâusula se ve como un conjunto de literales, entonces esta restriction se respeta de forma automâ- 
tica. Utilizar la notation de conjuntos para representar clâusulas hace que la régla de résolution sea mâs Cla¬ 
ra, con el coste de introducir una notation adicional. 
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verdadero, no podemos utilizar la resoluciôn para generar de forma automâtica la con- 
secuencia Av B. Sin embargo, podemos utilizar la resoluciôn para responder a la pre- 
gunta de si A v B es verdadero. Este hecho se denomina completitud de la resoluciôn, 
que indica que la resoluciôn se puede utilizar siempre para confirmar o refutar una sen- 
tencia, pero no se puede usar para enumerar sentencias verdaderas. En las dos siguien- 
tes secciones explicamos cômo la resoluciôn lleva a cabo este proceso. 


Forma normal conjuntiva 

La régla de resoluciôn solo se puede aplicar a disyunciones de literales, por lo tanto, sé¬ 
ria muy importante que la base de conocimiento y las preguntas a ésta estén formadas 
por disyunciones. Enfonces, /cômo nos lleva esto a un procedimiento de inferencia 
compléta para toda la lôgica proposicional? La respuesta es que toda sentencia en lôgi- 
ca proposicional es équivalente lôgicamente a una conjunciôn de disyunciones de lite¬ 
rales. Una sentencia representada mediante una conjunciôn de disyunciones de literales 
se dice que esta en forma normal conjuntiva o FNC. Que lo consideraremos bastante 
ütil mas tarde, al tratar la reducida familia de sentencias ft-FNC. Una sentencia /.-FNC 
tiene exactamente k literales por clâusula: 

(A.i v ... v tf u ) a ... a« u v ... v ej 

De manera que se puede transformar cada sentencia en una sentencia de tipo 3-FNC, la 
cual tiene un conjunto de modelos équivalente. 

Mejor que demostrar estas afirmaciones (véase el Ejercicio 7.10), vamos a descri- 
bir un procedimiento de conversion muy sencillo. Vamos a ilustrar el procedimiento con 
la conversion de R 2 , la sentencia 6 n o (H 12 v /U t ), a FNC. Los pasos a seguir son los 
siguientes: 

1. Eliminar o, sustituyendo a <=> /3 por {a => (3) a (f3 => a). 

(fi u => (H, , v H 2 l )) a ((H l 2 v H 2l ) => fi u ) 

2. Eliminar =>, sustituyendo a => (3 por ~<a v /3. 

(~>B l l V H {1 v H 2 l ) a (—■(//! 2 v H 2 l ) v B u ) 

3. Una FNC requiere que la -i se aplique solo a los literales, por lo tanto, debemos 
«anidar las -»> mediante la aplicaciôn reiterada de las siguientes equivalencias 
(sacadas de la Figura 7.11). 

-i(-ia) = a (eliminaciôn de la doble negaciôn) 

_ '(a a jS) = (-la v —>/3) (de Morgan) 

-i(a v (3) = (-«a a —i/8) (de Morgan) 

En el ejemplo, solo necesitamos una aplicaciôn de la ültima régla: 


v H X1 v H 2 Ù a ((.~>H i 2 a -i H 21 ) v B hl ) 
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4. Ahora tenemos una sentencia que tiene una a con operadores de v anidados, apli- 
cados a literales y a una a anidada. Aplicamos la ley de distributividad de la Fi¬ 
gura 7.11, distribuyendo la v sobre la a cuando nos es posible. 

(-'5,1 v H l2 v H 2 [ ) a (“7/ 1 2 v B u ) a {-'H 2 X v B u ) 

La sentencia inicial ahora esta en FNC, una conjunciôn con très clâusulas. Es mas difi- 
cil de leer pero se puede utilizar como entrada en el procedimiento de resolucion. 


Un algoritmo de resolucion 

Los procedimientos de inferencia basados en la resolucion trabajan utilizando el prin- 
cipio de prueba mediante contradicciôn que vimos al final de la Secciôn 7.4. Es decir, 
para demostrar que BC \= a, demostramos que (BC a -*a) es insatisfacïble. Lo hacemos 
demostrando una contradicciôn. 

En la Figura 7.12 se muestra un algoritmo de resolucion. Primero se convierte (BC 
a ~<a) a FNC. Enfonces, se aplica la régla de resolucion a las clâusulas obtenidas. Cada 
par que contiene literales complementarios se resuelve para generar una nueva clâusu- 
la, que se anade al conjunto de clâusulas si no estaba ya présente. El proceso continüa 
hasta que sucede una de estas dos cosas: 

• No hay nuevas clâusulas que se puedan anadir, en cuyo caso a no implica [3 , o 

• Se dériva la clâusula vacia de una aplicaciôn de la régla de resolucion, en cuyo caso 
a implica /3. 

La clâusula vacia (una disyunciôn sin disyuntores) es équivalente a Falso porque una dis- 
yunciôn es verdadera solo si al menos uno de sus disyuntores es verdadero. Otra forma 
de ver que la clâusula vacia représenta una contradicciôn es observar que se présenta solo 
si se resuelven dos clâusulas unitarias complementarias, taies como P y -iP. 


funciôn Resoluciôn-LP(BC, a) devuelve verdadero o falso 

entradas: BC, la base de conocimiento, una sentencia en logica proposicional 
a, la pétition, una sentencia en logica proposicional 

clâusulas <— el conjunto de clâusulas de BC a ->oi en représentation FNC 
nueva <- { } 

bucle hacer 

para cada C,, C. en clâusulas hacer 
resolventes <— Resuelve-LP(C,, Cl) 

si resolventes contiene la clâusula vacia entonces devolver verdadero 
nueva <— nueva u resolventes 
si nueva Ç clâusulas entonces devol ver /à/.vo 
clâusulas <— clâusulas u nueva 


Figura 7.12 Un algoritmo sencillo de résolution para la logica proposicional. La funcion Re- 
suelve-LP devuelve el conjunto de todas las clâusulas posibles que se obtienen de resolver las dos 
entradas. 
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Ahora podemos aplicar el procedimiento de resoluciôn a una inferencia sencilla del 
mundo de wumpus. Cuando el agente esta en la casilla [1, 1] no percibe ninguna brisa, 
por lo tanto no puede haber hoyos en las casillas vecinas. Las sentencias relevantes en 
la base de conocimiento son 

BC = R 2 a 7? 4 = (£> [ j <=> (77 ; 2 v 77 j [)) a —>B l j 

y deseamos demostrar a, es decir —>H[ 2 . Cuando convertimos (BC a -i a) a FNC obte- 
nemos las clâusulas que se muestran en la fila superior de la Figura 7.13. La segunda 
fila en la figura muestra todas las clâusulas obtenidas resolviendo parejas de la prime¬ 
ra fila. Entonces, cuando H { 2 se resuelve con ->H l 2 obtenemos la clâusula varia, representada 
mediante un cuadrado pequeno. Una révision de la Figura 7.13 nos révéla que muchos 
pasos de resoluciôn no nos sirven de nada. Por ejemplo, la clâusula 5, x v -> B l , v 77, , 
es équivalente a Verdadero v H l 2 , que es también équivalente a Verdadero. Deducir que 
Verdadero es verdadero no nos es muy ütil. Por lo tanto, se puede descartar cualquier 
clâusula que contenga dos literales complementarios. 


Completitud de la resoluciôn 


CIERRE DE LA 
RESOLUCION 


Para concluir con nuestro debate acerca de la resoluciôn, ahora vamos a demostrar 
por qué es compléta el procedimiento Resoluciôn-LP. Para hacerlo nos vendrâ bien 
introducir el concepto de cierre de la resoluciôn CR(S) del conjunto de clâusulas 
S, que es el conjunto de todas las clâusulas dérivables, obtenidas mediante la apli- 
caciôn repetida de la régla de resoluciôn a las clâusulas de S o a las derivadas de és- 
tas. El cierre de la resoluciôn es lo que calcula el procedimiento Resoluciôn-LP y 
asigna como valor final a la variable clâusulas. Es fâcil ver que CR(S ) debe ser fi- 
nito, porque solo hay un conjunto finito de las diferentes clâusulas que se pueden ge- 
nerar a partir del conjunto de slmbolos P v .., P k que aparecen en S, (fljese que esta 
no séria cierto si no aplicâramos el procedimiento de factorizaciôn, que élimina las 
copias multiples de un literal). Por eso, el procedimiento Resoluciôn-LP siempre 
termina. 



Figura 7.13 Aplicacion parcial de Resoluciôn-LP a una inferencia sencilla en el mundo de wum¬ 
pus. Se observa que -iH l 2 se sigue de las clâusulas 3. a y 4. a de la fila superior. 
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TEOREMA 

FUNDAMENTAL DE LA 
RESOLUCIÔN 


CLÂUSULAS DE HORN 


CLÂUSULAS POSITIVAS 
CABEZA 

CUERPO 

HECHO 


El teorema de la completitud para la resolucion en logica proposicional se denomi- 

na teorema fundamental de la resolucion: 

Si un conjunto de clâusulas es insatisfacible, entonces el cierre de la resolucion de esas 
clâusulas contiene la clâusula vacfa. 

Vamos a probar este teorema demostrando su contraposicion: si el cierre CR(S ) no con¬ 
tiene la clâusula vacfa, entonces S es satisfacible. De hecho, podemos construir un mo- 
delo de S con los valores de verdad adecuados para P,..., P k . El procedimiento de 
construcciôn es como sigue: 

Para / de 1 a k, 

— Si hay una clâusula en CR(S ) que contenga el literal -i P p tal que todos los de- 
mâs literales de la clâusula sean falsos bajo la asignacion escogida para P v .., P _,, 
entonces asignar a P. el valor d efalso. 

— En otro caso, asignar a P. el valor de verdadero. 

Queda por demostrar que esta asignacion a P l .. ., P k es un modelo de S, a condiciôn de 
que CR(S) se cierre bajo la resolucion y no contenga la clâusula vacfa. Esta demostra- 
cion se déjà como ejercicio. 


Encadenamiento hacia delante y hacia atrâs 

La completitud de la resolucion hace que ésta sea un método de inferencia muy impor¬ 
tante. Sin embargo, en muchos casos prâcticos no se necesita todo el poder de la resolu¬ 
cion. Las bases de conocimiento en el mundo real a menudo contienen solo clâusulas, de 
un tipo restringido, denominadas clâusulas de Horn. Una clâusula de Horn es una dis- 
yunciôn de literales de los cuales, como mucho uno es positivo. Por ejemplo, la clâusula 
(pL l j v -i Brisa v B } j), en donde L x , représenta que el agente estâ en la casilla [1, 1], es 
una clâusula de Horn, mientras que la clâusula (~'B l ,v// 12 v// 21 ) no lo es. 

La restricciôn de que haya solo un literal positivo puede parecer algo arbitraria y sin 
interés, pero realmente es muy importante, debido a très razones: 

1. Cada clâusula de Horn se puede escribir como una implicacion cuya premisa sea 
una conjuncion de literales positivos y cuya conclusion sea un ünico literal po¬ 
sitivo. (Véase el Ejercicio 7.12.) Por ejemplo, la clâusula de Horn (~'L l , v ~>Bri- 
sa v B { j) se puede rescribir como la implicacion (L l , a Brisa) => B x ,. La 
sentencia es mâs fâcil de leer en la ültima representacion: ésta dice que si el agen¬ 
te estâ en la casilla [1, 1] y percibe una brisa, entonces la casilla [1, 1] tiene una 
corriente de aire. La gente encuentra mâs fâcil esta forma de leer y escribir sen- 
tencias para muchos dominios del conocimiento. 

Las clâusulas de Horn como ésta, con exactamente un literal positivo, se de- 
nominan clâusulas positivas. El literal positivo se denomina cabeza, y la dis- 
yunciôn de literales negativos cuerpo de la clâusula. Una clâusula positiva que 
no tiene literales negativos simplemente aserta una proposiciôn dada, que algu- 
nas veces se le denomina hecho. Las clâusulas positivas forman la base de la 
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programaciôn lôgica, que se verâ en el Capftulo 9. Una clâusula de Horn sin 
literales positivos se puede escribir como una implicacion cuya conclusion es 
el literal Falso. Por ejemplo, la clâusula {~W X , v ~W X 2 ) (el wumpus no pue¬ 
de estar en la casilla [1, 1] y la [1, 2] a la vez) es équivalente a x a W { 2 => 
Falso. A este tipo de sentencias se las llama restricciones de integridad en 
el mundo de las bases de datos, donde se utilizan para indicar errores entre los 
datos. En los algoritmos siguientes asumimos, para simplificar, que la base de 
conocimiento solo contiene clâusulas positivas y que no dispone de restric¬ 
ciones de integridad. Entonces decimos que estas bases de conocimiento es- 
tân en forma de Horn. 

2. La inferencia con clâusulas de Horn se puede realizar mediante los algoritmos 
de encadenamiento hacia delante y de encadenamiento hacia atrâs, que en 
breve explicaremos. Ambos algoritmos son muy naturales, en el sentido de que 
los pasos de inferencia son obvios y fâciles de seguir por las personas. 

3. Averiguar si hay o no implicacion con las clâusulas de Horn se puede realizar 
en un tiempo que es lineal respecto al tamano de la base de conocimiento. 

Este ültimo hecho es una grata sorpresa. Esto significa que la inferencia lôgica es un pro- 
ceso barato para muchas bases de conocimiento en lôgica proposicional que se encuen- 
tran en el mundo real. 

El algoritmo de encadenamiento hacia delante I \i plic ACIÔN-EHD -LP? (B C, q) dé¬ 
termina si un simbolo proposicional q (la peticiôn) se deduce de una base de conocimiento 
compuesta por clâusulas de Horn. El algoritmo comienza a partir de los hechos conoci- 
dos (literales positivos) de la base de conocimiento. Si todas las premisas de una impli- 
caciôn se conocen, entonces la conclusion se anade al conjunto de hechos conocidos. 
Por ejemplo, si L x x y Brisa se conocen y (L l , a Brisa) => B 11 estâ en la base de cono¬ 
cimiento, entonces se puede anadir S n a ésta. Este proceso continua hasta que la peti¬ 
ciôn q es anadida o hasta que no se pueden realizar mâs inferencias. En la Figura 7.14 
se muestra el algoritmo detallado. El principal punto a recordar es que el algoritmo se 
ejecuta en tiempo lineal. 

La mejor manera de entender el algoritmo es mediante un ejemplo y un diagrama. 
La Figura 7.15(a) muestra una base de conocimiento sencilla con clâusulas de Horn, en 
donde A y B se conocen como hechos. La Figura 7.15(b) muestra la misma base de co¬ 
nocimiento representada mediante un grafo Y-O. En los grafos Y-0 multiples enlaces 
se juntan mediante un arco para indicar una disyunciôn (cualquier enlace se puede pro¬ 
bar). Es fâcil ver como el encadenamiento hacia delante trabaja sobre el grafo. Se se- 
leccionan los hechos conocidos (aqui A y B) y la inferencia se propaga hacia arriba tanto 
como se pueda. Siempre que aparece una conjunciôn, la propagaciôn se para hasta que 
todos los conjuntores sean conocidos para seguir a continuaciôn. Se anima al lector a 
que desarrolle el proceso en detalle a partir del ejemplo. 

Es fâcil descubrir que el encadenamiento hacia delante es un proceso sôlido: cada in¬ 
ferencia es esencialmente una aplicaciôn del Modus Ponens. El encadenamiento hacia de¬ 
lante también es completo: cada sentencia atômica implicada serâ derivada. La forma mâs 
fâcil de verlo es considerando el estado final de la tabla inferido (después de que el algo¬ 
ritmo encuentra un punto fijo a partir del cual no es posible realizar nuevas inferencias). 
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funciôn ^Implicaciôn-EHD-LP?(SC, q) devuelve verdadero o falso 

entradas: BC, la base de conocimiento, un conjunto de clâusulas de Hom en Lôgica Proposicional 
q, la pétition, un slmbolo proposicional 

variables locales: cuenta , una tabla ordenada por clâusula, inicializada al numéro de clâusulas 
inferido, una tabla, ordenada por slmbolo, cada entrada inicializada a falso 
agenda, una lista de slmbolos, inicializada con los slmbolos de la BC que se 
sabe que son verdaderos 

mientras agenda no esté vacla hacer 
p <- POP {agenda) 
a menos que inferido[p] hacer 
inferido[p] <— verdadero 

para cada clâusula de Horn c en la que aparezca la premisa p hacer 
reducir cuenta[c] 
si cuenta[c] = 0 entoncer hacer 

si Cabeza[c] = q entonces devolver verdadero 
Push(Cabeza[c], agenda) 
devolver falso 


Figura 7.14 El algoritmo de encadenamiento hacia delante para la lôgica proposicional. La varia¬ 
ble agenda almacena la pista de los slmbolos que se saben son verdaderos pero no han sido «procesa- 
dos» todavla. La tabla cuenta guarda la pista de las premisas de cada implication que aün son 
desconocidas. Siempre que se procesa un slmbolo p de la agenda la cuenta se reduce en uno para cada 
implicaciôn en la que aparece la premisa p. (Este proceso se puede realizar en un tiempo constante si 
la BC se ordena de forma adecuada.) Si la cuenta llega a cero, todas las premisas de la implicaciôn 
son conocidas, y por tanto, la conclusion se puede anadir a la agenda. Por ültimo, necesitamos guar- 
dar la pista de qué slmbolos han sido procesados; no se necesita anadir un slmbolo inferido si ha sido 
procesado previamente. Este proceso nos évita un trabajo redundante, y también nos prevé de los bu- 
cles infinitos que podrlan causarse por implicaciones taies como P => Q y Q => P. 


P^Q 
L aM => P 
B aL=>M 
A aP => L 
A a B => L 
A 
B 

(a) 



Figura 7.15 (a) Una base de conocimiento sencilla con clâusulas de Hom. (b) Su correspondiente 

grafo Y-O. 
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La tabla contiene el valor vevdadero para cada simbolo inferido en el proceso, y el 
vAor falso para los demâs simbolos. Podemos interpretar la tabla como un modelo 16- 
gico, mas aün, cada clâusula positiva de la BC original es verdadera en este modelo. 
Para ver esto asumamos lo opuesto, en concreto, que alguna clâusula a, a ... a a k , => b 
sea falsa en el modelo. Entonces a { a ... a a k debe ser verdadero en el modelo y b debe 
ser falso. jPero esto contradice nuestra asuncion de que el algoritmo ha encontrado un 
punto fijo! Por lo tanto, podemos concluir que el conjunto de sentencias atomicas in- 
feridas hasta el punto fijo define un modelo de la BC original. Ademâs, cualquier sen- 
tencia atômica q que se implica de la BC debe ser cierta en todos los modelos y en este 
modelo en particular. Por lo tanto, cada sentencia implicada q debe ser inferida por el 
algoritmo. 

El encadenamiento hacia delante es un ejemplo del concepto general de razo- 
namiento dirigido por los datos, es decir, un razonamiento en el que el foco de aten- 
cion parte de los datos conocidos. Este razonamiento se puede utilizar en un agente 
para derivar conclusiones a partir de percepciones recibidas, a menudo, sin la ne- 
cesidad de una peticion concreta. Por ejemplo, el agente de wumpus podria Decir 
sus percepciones a la base de conocimiento utilizando un algoritmo de encade¬ 
namiento hacia delante de tipo incrémental, en el que los hechos se pueden anadir 
a la agenda para iniciar nuevas inferencias. A las personas, a medida que les llega 
nueva informacion, se les activa una gran cantidad de razonamiento dirigido por los 
datos. Por ejemplo, si estoy en casa y oigo que comienza a llover, podria sucederme que 
la merienda quede cancelada. Con todo esto, no sera muy probable que el pétalo dieci- 
sieteavo de la rosa mas alta del jardin de mi vecino se haya mojado. Las personas 11e- 
van a cabo un encadenamiento hacia delante con un control cuidadoso, a fin de no 
hundirse en consecuencias irrelevantes. 

El algoritmo de encadenamiento hacia atrâs, tal como sugiere su nombre, trabaja ha¬ 
cia atrâs a partir de la peticion. Si se sabe que la peticion q es verdadera, entonces no se 
requiere realizar ningün trabajo. En el otro caso, el algoritmo encuentra aquellas impli- 
caciones de la base de conocimiento de las que se concluye q. Si se puede probar que 
todas las premisas de una de esas implicaciones son verdaderas (mediante en encade¬ 
namiento hacia atrâs), entonces q es verdadera. Cuando se aplica a la peticion Q de la 
Figura 7.15, el algoritmo rétrocédé hacia abajo por el grafo hasta que encuentra un con¬ 
junto de hechos conocidos que forma la base de la demostraciôn. El algoritmo detalla- 
do se déjà como ejercicio. Al igual que en el encadenamiento hacia delante, una 
implementacion eficiente se ejecuta en tiempo lineal. 

El encadenamiento hacia atrâs es un tipo de razonamiento dirigido por el objeti- 
vo. Este tipo de razonamiento es ütil para responder a peticiones taies como «/ ; Qué debo 
hacer ahora?» y «/Dondc estân mis llaves?» A menudo, el coste del encadenamiento ha¬ 
cia atrâs es mucho menor que el orden lineal respecto al tamano de la base de conoci¬ 
miento, porque el proceso solo trabaja con los hechos relevantes. Por lo general, un agente 
deberia repartir su trabajo entre el razonamiento hacia delante y el razonamiento hacia 
atrâs, limitando el razonamiento hacia delante a la generaciôn de los hechos que sea pro¬ 
bable que sean relevantes para las peticiones, y éstas se resolverân mediante el encade¬ 
namiento hacia atrâs. 
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7.6 Inferencia proposicional efectiva 


En esta seccion vamos a describir dos familias de algoritmos eficientes para la inferen¬ 
cia en lôgica proposicional, basadas en la comprobacion de modelos: un enfoque basa- 
do en la büsqueda con backtracking, y el otro en la büsqueda basada en la escalada de 
colina. Estos algoritmos forman parte de la «tecnologia» de la lôgica proposicional. Esta 
seccion se puede tan solo ojear en una primera lectura del capitulo. 

Los algoritmos que vamos a describir se utilizan para la comprobacion de la satis- 
facibilidad. Ya hemos mencionado la conexiôn entre encontrar un modelo satisfacible 
para una sentencia lôgica y encontrar una soluciôn para un problema de satisfacciôn de 
restricciones, entonces, quizâ no sorprenda que las dos familias de algoritmos se ase- 
mejen bastante a los algoritmos con backtracking de la Seccion 5.2 y a los algoritmos 
de büsqueda local de la Seccion 5.3. Sin embargo, éstos son extremadamente importantes 
por su propio derecho, porque muchos problemas combinatorios en las ciencias de la com- 
putaciôn se pueden reducir a la comprobacion de la satisfacibilidad de una sentencia pro¬ 
posicional. Cualquier mejora en los algoritmos de satisfacibilidad présenta énormes 
consecuencias para nuestra habilidad de manejar la complejidad en general. 

Un algoritmo completo con backtracking («vuelta atrâs») 

El primer algoritmo que vamos a tratar se le llama a menudo algoritmo de Davis y Put- 
nam, después del articulo de gran influencia que escribieron Martin Davis y Hilary Put- 
nam (1960). De hecho, el algoritmo es la version descrita por Davis, Logemann y 
Loveland (1962), asi que lo llamaremos DPLL, las iniciales de los cuatro autores. DPLL 
toma como entrada una sentencia en forma normal conjuntiva (un conjunto de clâusu- 
las). Del mismo modo que la Büsqueda-Con-Backtracking e ^Implicaciôn-TV?, 
DPLL realiza una enumeraciôn esencialmente recursiva, mediante el primero en pro- 
fundidad, de los posibles modelos. El algoritmo incorpora très mejoras al sencillo es- 
quema del ^ImplicaciÔn-TV? 

• Terminaciôn anticipada : el algoritmo détecta si la sentencia debe ser verdadera o 
falsa, aun con un modelo completado parcialmente. Una clâusula es verdadera si 
cualquier literal es verdadero, aun si los otros literales todavia no tienen valores 
de verdad; asi la sentencia, entendida como un todo, puede evaluarse como ver¬ 
dadera aun antes de que el modelo sea completado. Por ejemplo, la sentencia 
(A v B) a (A v C) es verdadera si A lo es, sin tener en cuenta los valores de B y C. 
De forma similar, una sentencia es falsa si cualquier clâusula lo es, caso que ocu- 
rre cuando cada uno de sus literales lo son. Del mismo modo, esto puede ocurrir 
mucho antes de que el modelo sea completado. La terminaciôn anticipada évita la 
evaluaciôn integra de los subârboles en el espacio de büsqueda. 
simbolo puro • Heunstica de simbolo puro : un simbolo puro es un simbolo que aparece siempre 

con el mismo «signo» en todas las clâusulas. Por ejemplo, en las très clâusulas (A 
v -i B), (-i B v -iC), y (C v A), el simbolo A es puro, porque solo aparece el literal 
positivo, B también es puro porque solo aparece el literal negativo, y C es un sim- 


ALG0RITM0 DE DAVIS 
Y PUTNAM 
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bolo impuro. Es fâcil observar que si una sentencia tiene un modelo, enfonces tie- 
ne un modelo con simbolos puros asignados para hacer que sus literales sean ver- 
daderos, porque al hacerse asi una clâusula nunca puede ser falsa. Fijese en que, 
al determinar la pureza de un s un bolo, el algoritmo puede ignorar las clâusulas que 
ya se sabe que son verdaderas en el modelo construido hasta ahora. Por ejemplo, 
si el modelo contiene B = falso, enfonces la clâusula (pB v ->C) ya es verdadera, 
y C pasa a ser un simbolo puro, ya que solo aparecerâ en la clâusula ( C v A). 

• Heuristica de clâusula unitaria : anteriormente habia sido definida una clâusula 
unitaria como aquella que tiene solo un literal. En el contexto del DPLL, este con- 
cepto también détermina a aquellas clâusulas en las que todos los literales, menos 
uno, tienen asignado el valor falso en el modelo. Por ejemplo, si el modelo con¬ 
tiene B = falso, enfonces (B v ->C) pasa a ser una clâusula unitaria, porque es équi¬ 
valente a ( Falso v ~>C), o justamente ~>C. Obviamente, para que esta clâusula sea 
verdadera, a C se le debe asignar falso. La heuristica de clâusula unitaria asigna 
dichos simbolos antes de realizar la ramificaciôn restante. Una consecuencia im¬ 
portante de la heuristica es que cualquier intento de demostrar (mediante refuta- 
ciôn) un literal que ya esté en la base de conocimiento, tendrâ éxito inmediatamente 
(Ejercicio 7.16). Fijese también en que la asignaciôn a una clâusula unitaria pue¬ 
de crear otra clâusula unitaria (por ejemplo, cuando a C se le asigna falso, (C v A) 
pasa a ser una clâusula unitaria, causando que le sea asignado a A el valor verda- 
dero). A esta «cascada» de asignaciones forzadas se la denomina propagaciôn uni¬ 
taria. Este proceso se asemeja al encadenamiento hacia delante con las clâusulas 
de Horn, y de hecho, si una expresiôn en FNC solo contiene clâusulas de Horn, 
enfonces el DPLL esencialmente reproduce el encadenamiento hacia delante. 
('Véase el Ejercicio 7.17.) 

En la Figura 7.16 se muestra el algoritmo DPLL. Solo hemos puesto la estmctura bâsi- 
ca del algoritmo, que describe, en si mismo, el proceso de büsqueda. No hemos descri- 
to las estructuras de datos que se deben utilizar para hacer que cada paso de la büsqueda 
sea eficiente, ni los trucos que se pueden anadir para mejorar su comportamiento: apren- 
dizaje de clâusulas, heuristicas para la selecciôn de variables y reinicializaciôn aleato- 
ria. Cuando estas mejoras se ahaden, el DPLL es uno de los algoritmos de satisfacibilidad 
mâs râpidos, a pesar de su antigüedad. La implementaciôn CHAFF se utiliza para re¬ 
sol ver problemas de verificaciôn de hardware con un millôn de variables. 


Algoritmos de büsqueda local 

Hasta ahora, en este libro hemos visto varios algoritmos de büsqueda local, incluyendo 
la Ascensiôn-De-Colina (pâgina 126) y el Templado-Simulado (pâgina 130). Estos 
algoritmos se pueden aplicar directamente a los problemas de satisfacibilidad, a condi- 
ciôn de que elijamos la correcta funcion de evaluacion. Como el objetivo es encontrar 
una asignaciôn que satisfaga todas las clâusulas, una funcion de evaluacion que cuente 
el nümero de clâsulas insatisfacibles harâ bien el trabajo. De hecho, ésta es exactamen- 
te la medida utilizada en el algoritmo Min-Conflictos para los PSR (pâgina 170). To¬ 
dos estos algoritmos realizan los pasos en el espacio de asignaciones complétas, 
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funciôn ^Satisfacible-DPLL?(s) devuelve verdadero ofalso 
entradas: s, una sentencia en lôgica proposicional 

clâusulas <— el conjunto de clâusulas de s en représentât;ion FNC 
sîmbolos <— una lista de los sîmbolos proposicionales de 5 
devolver DPLL(clâusulas, sîmbolos, [ ]) 


funciôn DPLL (clâusulas, sîmbolos, modelo) devuelve verdadero ofalso 

si cada clâusula en clâusulas es verdadera en el modelo entonces devolver verdadero 

si alguna clâusula en clâusulas es falsa en el modelo entonces devolver falso 

P, valor <— ENCONTRAR-SÎMBOLO-PuRo(i/>Hèo/o5, clâusulas, modelo) 

si P no esta vaefo entonces devolver 

DPLL (clâusulas, sîmbolos — P, Extender(P, valor, modelo) 

P, valor <- ENCONTRAR-CLÂusuLA-UNiTARiA(c/tww/<2.s, modelo) 

si P no esta vaefo entonces devolver 

DPLL {clâusulas, sîmbolos — P, Extender(P, valor, modelo) 

P <— Primero {sîmbolos)', resto <— RESTO{sîmbolos) 
devolver DPLL(cIâusulas, resto, Extender(P, verdadero, modelo)) o 
DPLL {clâusulas, resto, Extender (P, falso, modelo)) 


Figura 7.16 El algoritmo DPLL para la comprobaciôn de la satisfacibilidad de una sentencia en 
lôgica proposicional. En el texto se describen Encontrar-Simbolo-Puro y Encontrar-Clâusu- 
la-Unitaria; cada una devuelve un sfmbolo (o ninguno) y un valor de verdad para asignar a dicho 
sfmbolo. Al igual que ^Implicaciôn-TV?, este algoritmo trabaja sobre modelos parciales. 


intercambiando el valor de verdad de un simbolo a la vez. El espacio generalmente con- 
tiene muchos minimos locales, requiriendo diversos métodos de aleatoriedad para es- 
capar de ellos. En los ültimos anos se han realizado una gran cantidad de experimentos 
para encontrar un buen equilibrio entre la voracidad y la aleatoriedad. 

Uno de los algoritmos mas sencillos y eficientes que han surgido de todo este tra- 
bajo es el denominado SAT-Caminar (Figura 7.17). En cada iteracion, el algoritmo se- 
lecciona una clâusula insatisfecha y un simbolo de la clâusula para intercambiarlo. El 
algoritmo escoge aleatoriamente entre dos métodos para seleccionar el simbolo a inter- 
cambiar: (1) un paso de «min-conflictos» que minimiza el nümero de clâusulas insatis- 
fechas en el nuevo estado, y (2) un paso «pasada-aleatoria» que selecciona de forma 
aleatoria el simbolo. 

/ ; EI SAT-Caminar realmente trabaja bien? De forma clara, si el algoritmo de¬ 
vuelve un modelo, entonces la sentencia de entrada de hecho es satisfacible. qQué 
sucede si el algoritmo devuelve/a//o? En ese caso, no podemos decir si la sentencia 
es insatisfacible o si necesitamos darle mâs tiempo al algoritmo. Podriamos inten- 
tar asignarle a max_intercambios el valor infinito. En ese caso, es fâcil ver que con 
el tiempo SAT-Caminar nos devolverâ un modelo (si existe alguno) a condicion de 
que la probabilidad p > 0. Esto es porque siempre hay una secuencia de intercam- 
bios que nos lleva a una asignacion satisfactoria, y al final, los sucesivos pasos de 
movimientos aleatorios generarân dicha secuencia. Ahora bien, si maxjute rca mbi os 
es infinito y la sentencia es insatisfacible, entonces la ejecucion del algoritmo nun- 
ca finalizarâ. 
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funciôn SAT-CAMiNAR(clâusulas,p, maxintercambios) devuelve un modelo satisfactorio o fallo 
entradas: clâusulas, un conjunto de clâusulas en lôgica proposicional 

p. la probabilidad de escoger un movimiento «aleatorio», generalmente alrededor de 0,5 
max intercambios el numéro de intercambios permitidos antes de abandonar 

modelo <— una asignaciôn aleatoria de verdadero/falso a los sfmbolos de las clâusulas 
para i = 1 hasta max intercambios hacer 

si modelo satisface las clâusulas entonces devolver modelo 

clâusula <— una clâusula seleccionada aleatoriamente de clâusulas que es falsa en el modelo 
con probabilidad p intercambia el valor en el modelo de un sfmbolo seleccionado 
aleatoriamente de la clâusula 

sino intercambia el valor de cualquier sfmbolo de la clâusula para que maximice el 
numéro de clâusulas satisfacibles 
devolver faüo 


Figura 7.17 El algoritmo SAT-CAMINAR para la comprobaciôn de la satisfacibilidad mediante 
intercambio aleatorio de los valores de las variables. Existen muchas versiones de este algoritmo. 


Lo que sugiere este problema es que los algoritmos de büsqueda local, como el SAT- 
Caminar, son mas utiles cuando esperamos que haya una soluciôn (por ejemplo, los pro- 
blemas de los que hablamos en los Capitulos 3 y 5, por lo general, tienen soluciôn). Por 
otro lado, los algoritmos de büsqueda local no detectan siempre la insatisfacibilidad, algo 
que se requiere para decidir si hay relaciôn de implicaciôn. Por ejemplo, un agente no 
puede utilizar la büsqueda local para demostrar, de forma fiable, si una casilla es segu- 
ra en el mundo de wumpus. En lugar de ello, el agente puede decir «he pensado acerca 
de ello durante una hora y no he podido hallar ningün mundo posible en el que la casi¬ 
lla no sea segura ». Si el algoritmo de büsqueda local es por lo general realmente mas 
râpido para encontrar un modelo cuando éste existe, el agente se podrfa justificar asu- 
miendo que el impedimento para encontrar un modelo indica insatisfacibilidad. Desde 
luego que esto no es lo mismo que una demostraciôn, y el agente se lo deberia pensar 
dos veces antes de apostar su vida en ello. 


Problemas duros de satisfacibilidad 

Vamos a ver ahora como trabaja en la prâctica el DPLL. En concreto, estamos interesa- 
dos en los problemas duros (o complejos), porque los probicmas faciles se pueden re- 
solver con cualquier algoritmo antiguo. En el Capitulo 5 hicimos algunos descubrimientos 
sorprendentes acerca de cierto tipo de problemas. Por ejemplo, el problema de las n- rei¬ 
nas (pensado como un problema absolutamente dificil para los algoritmos de büsqueda 
con backtracking ) résulté ser trivialmente sencillo para los métodos de büsqueda local, 
como el min-conflictos. Esto es a causa de que las soluciones estân distribuidas muy den- 
samente en el espacio de asignaciones, y esta garantizado que cualquier asignaciôn ini- 
cial tenga cerca una soluciôn. Asi, el problema de las n-reinas es sencillo porque esta 
bajo restricciones bajo restricciones. 

Cuando observamos los problemas de satisfacibilidad en forma normal conjuntiva, 
un problema bajo restricciones es aquel que tiene relativamente pocas clâusulas res- 
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tringiendo las variables. Por ejemplo, aqul tenemos una sentencia en FNC-3 con cinco 
simbolos, y cinco clâusulas generadas aleatoriamente 12 : 

(~iD v —iB v C) a (D v —iA v ~>C) a (~<C v ~>B v E) a (E v ~lD v B) a (B v E v —> C) 

16 de las 32 posibles asignaciones son modelos de esta sentencia, por lo tanto, de me¬ 
dia, solo se requeririan dos pasos para encontrar un modelo. 

Enfonces, /donde se encuentran los problemas duras? Presumiblemente, si incre- 
mentamos el nümero de clâusulas, manteniendo fijo el nümero de simbolos, hacemos 
que el problema esté mas restringido, y que sea mas dificil encontrar las soluciones. Per- 
mitamos que m sea el nümero de clâusulas y « el nümero de simbolos. La Figura 7.18(a) 
muestra la probabilidad de que una sentencia en FNC-3 sea satisfacible, como una fun- 
cion de la relaciôn clâusula/simbolo, m/n, con n fijado a 50. Tal como esperâbamos, para 
una m/n pequena, la probabilidad se acerca a 1 , y para una m/n grande, la probabilidad 
se acerca a 0. La probabilidad cae de forma bastante brusca alrededor del valor de m/n 
puntocritico = 43 . Las sentencias en FNC que estân cerca de este punto critico se podrian définir 

como «casi satisfacibles» o «casi insatisfacibles». /Es en este punto donde encontramos 
los problemas duras? 

La Figura 7.18(b) muestra los tiempos de ejecuciôn de los algoritmos DPLL y SAT- 
Caminar alrededor de este punto critico, en donde hemos restringido nuestra atencion solo 
a los problemas satisfacibles. Très cosas estân claras: primero, los problemas que estân 
cerca del punto critico son mucho mâs dificiles que los otros problemas aleatorios. Se- 
gundo, aun con los problemas mâs duras, el DPLL es bastante efectivo (una media de unos 
pocos miles de pasos comparados con 2 50 ~ 10 15 en la enumeracion de tablas de verdad). 
Tercero, SAT-Caminar es mucho mâs râpido que el DPLL en todo el rango. 




Ratio Clâusula/simbolo m/n Ratio Clâusula/simbolo m/n 

(a) (b) 


Figura 7.18 (a) Grâfico que muestra la probabilidad de que una sentencia en FNC-3 con n = 50 

simbolos sea satisfacible, en funcion del ratio clâusula/simbolo m/n. (b) Grâfico del tiempo de eje¬ 
cuciôn promedio del DPLL y del SAT-Caminar sobre 100 sentencias en FNC-3 aleatorias con 
n = 50, para un rango reducido de valores de m/n alrededor del punto critico. 


12 Cada clâusula contiene très simbolos diferentes seleccionados aleatoriamente, cada uno de ellos negado 
con una probabilidad del 50%. 
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Por supuesto, estos resultados solo son para los problemas generados aleatoriamen- 
te. Los problemas reales no tienen necesariamente la misma estructura (en términos de 
proporciones entre literales positivos y negativos, densidades de conexiones entre clâ- 
susulas, etcétera) que los problemas aleatorios. Pero todavfa en la prâctica, el SAT-Ca- 
minar y otros algoritmos de la misma familia son muy buenos para resolver problemas 
reales (a menudo, tan buenos como el mejor algoritmo de proposito especlfico para esas 
tareas). Problemas con miles de slmbolos y millones de clâusulas se tratan de forma ru- 
tinaria con resolutores como el Chaff. Estas observaciones nos sugieren que alguna com- 
binaciôn de los comportamientos de la heurfstica de min-conflictos y de pasada-aleatoria 
nos proporciona una gran capacidad de propôsito-general para resolver muchas situa- 
ciones en las que se requiere el razonamiento combinatorio. 


7.7 Agentes basados en logica proposicional 


En esta seccion, vamos a juntar lo que hemos aprendido hasta ahora para construir 
agentes que funcionan utilizando la logica proposicional. Veremos dos tipos de agentes: 
aquellos que utilizan algoritmos de inferencia y una base de conocimiento, como el agen¬ 
te basado en conocimiento genérico de la Figura 7.1, y aquellos que evalüan directamente 
expresiones logicas en forma de circuitos. Aplicaremos ambos tipos de agentes en el mun- 
do de wumpus, y encontraremos que ambos sufren de sérias desventajas. 


Encontrar hoyos y wumpus utilizando 
la inferencia logica 

Permitanos empezar con un agente que razona mediante la logica acerca de las locali- 
zaciones de los hoyos, de los wumpus y de la seguridad de las casillas. El agente comienza 
con una base de conocimiento que describe la «fisica» del mundo de wumpus. El agen¬ 
te sabe que la casilla [1, 1] no tiene ningün hoyo ni ningün wumpus', es decir, ~<H ] , y 
-’Wf j. El agente también conoce una sentencia que indica como se percibe una brisa en 
una casilla [x, y]: 


B x.y « ( H X ,y + l V H x.y-l V H x+l,y V H x _ l y ) (7.1) 

El agente conoce una sentencia que indica como se percibe el hedor en una casilla [x, y]: 

K, y « (W x ,, +1 v v W x+Uy v W X .,J C 7.2) 

Finalmente, el agente sabe que solo hay un wumpus. Esto se expresa de dos maneras. 
En la primera, debemos définir que hay por lo menos un wumpus'. 

Wi,i v v ... v JL 43 v W 4A 


Entonces, debemos définir que como mucho hay un wumpus. Una manera de definirlo 
es diciendo que para dos casillas cualesquiera, una de ellas debe estar libre de un wum- 
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pus. Con n casillas, tenemos n(n — l)/2 sentencias del tipo ~W X , v ~W l 2 . Enfonces, para 
un mundo de 4 X 4, comenzamos con un total de 155 sentencias conteniendo 64 sim- 
bolos diferentes. 

El programa del agente, que se muestra en la Figura 7.19 Dice a su base de conoci- 
miento cualquier nueva percepciôn acerca de una brisa o un mal hedor. (También actualiza 
algunas variables del programa para guardar la pista de dônde se encuentra y que casi¬ 
llas ha visitado. Estos ültimos datos los necesitarâ mas adelante.) Enfonces el programa 
escoge dônde observar antes de entre las casillas que rodean al agente, es decir, las ca¬ 
sillas adyacentes a aquellas ya visitadas. Una casilla [i.j] que rodea al agente es proba¬ 
ble que sea segura si la sentencia j a -i W t ) se deduce de la base de conocimiento. 

La siguiente alternativa mejor es una casilla posiblemente segura, o sea, aquella casilla 
para la cual el agente no puede demostrar si hay un hoyo o un wumpus, es decir, aque¬ 
lla para la que no se deduce ( H i . v W t p. 

El câlculo para averiguar la implicaciôn mediante Preguntar se puede implemen- 
tar utilizando cualquiera de los métodos descritos anteriormente en este capitulo. / ; I\i- 
plicaciÔn-TV? (Figura 7.10) es obviamente impracticable, ya que deberfa enumerar 2 64 
filas. El DPLL (Figura 7.16) realiza las inferencias necesarias en pocos milisegundos, 
principalmente gracias a la heurfstica de propagaciôn unitaria. El SAT-Caminar también 
se puede utilizar, teniendo en cuenta la advertencia acerca de la incompletitud. En el mun¬ 
do de wumpus, los obstâculos para encontrar un modelo, realizados 10.000 intercambios, 


funcion AGENTE-WuMPUS-LP(percepciôn) devuelve una action 
entradas: perception, una lista, [hedor, brisa, resplandor] 

variables estâticas: BC, una base de conocimiento, inicialmente conteniendo la «ffsica» del 
mundo de wumpus 

x, y, orientation, la posicion del agente (inicialmente en 1, 1) y su 
orientacion (inicialmente derecha ) 

visitada, una matriz indicando qué casillas han sido visitadas, 
inicialmente falso 

action, la accion mas reciente del agente, inicialmente null 

plan, una secuencia de acciones, inicialmente vacîa 

actualiza x, y, orientation, visitada basada en action 

si hedor entonces Decir(5C, M xy ) sino Decir(BC, -■ M xy ) 

si brisa entonces Decir(BC, B xy ) sino Decir(5C, -> B xy ) 

si resplandor entonces action <— agarrar 

sino si plan no esta vacfo entonces action <— Pop (plan) 

sino si para alguna casilla [i, j] que nos rodea es verdadero Preguntar(5C, (-> H tj a -i W^j) 
o es falso Preguntar(5C, ( H j] v W ; j )) entonces hacer 
plan <— Busqueda-Grafo-A*(Problema-Ruta([x, y], orientation, [i.j], visitada )) 
action <- Pop (plan) 

sino action <— un movimiento escogido al azar 
devolver action 


Figura 7.19 Un agente en el mundo de wumpus que utiliza la logica proposicional para identi- 
ftcar hoyos, wumpus y casillas seguras. La subrutina Problema-Ruta construye un problema de 
büsqueda cuya soluciôn es una secuencia de acciones que nos llevan de [x, y] a [i.j] pasando solo 
a través de las casillas previamente visitadas. 
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se corresponden invariablemente con la insatisfacibilidad, asi que los errores no se de- 
ben probablemente a la incompletitud. 

El programa Agente-Wumpus-LP se comporta bastante bien en un mundo de wum- 
pus pequeno. Sin embargo, sucede algo profundamente insatisfactorio respecta a la 
base de conocimiento del agente. La BC contiene las sentencias que definen la «fïsica» 
en la forma dada en las Ecuaciones (7.1) y (7.2) para cada casilla individual. Cuanto 
mas grande sea el entomo, mas grande necesita ser la base de conocimiento inicial. Pre- 
ferirfamos en mayor medida disponer solo de las dos sentencias para définir cômo se pré¬ 
senta una brisa o un hedor en cualquier casilla. Esto esta mas alla del poder de expresiôn 
de la lôgica proposicional. En el prôximo capitulo veremos un lenguaje logico mas ex- 
presivo mediante el cual es mas fâcil expresar este tipo de sentencias. 


Guardar la pista acerca de la localizaciôn 
y la orientaciôn del agente 

El programa del agente de la Figura 7.19 «hace trampa» porque guarda la pista de su lo- 
calizaciôn/Mcra de la base de conocimiento, en vez de utilizar el razonamiento logico 13 . 
Para hacerlo «correctamente» necesitaremos proposiciones acerca de la localizaciôn. Una 
primera aproximaciôn podrfa consistir en utilizar un simbolo como L l , para indicar que 
el agente se encuentra en la casilla [1, 1], Entonces la base de conocimiento inicial po- 
dria incluir sentencias como 

L, j a OrientadoDerecha a Avanzar => L 2 , 

Vemos inmediatamente que esto no funciona correctamente. Si el agente comienza en 
la casilla [ 1 , 1 ] orientado a la derecha y avanza, de la base de conocimiento se deduci- 
rfa L, j (la localizaciôn original del agente) y L , , (su nueva localizaciôn). jAunque es¬ 
tas dos proposiciones no pueden ser verdaderas a la vez! El problema es que las 
proposiciones de localizaciôn deberfan referirse a dos instantes de tiempo diferentes. Ne- 
cesitamos L\ 1 para indicar que el agente se encuentra en la casilla [1, 1] en el instante 
de tiempo 1, L\ l para indicar que el agente se encuentra en la casilla [2, 1] en el instan¬ 
te de tiempo 2, etcétera. Las proposiciones acerca de la orientaciôn y la acciôn también 
necesitan depender del tiempo. Por lo tanto, la sentencia correcta es 

L\ ! a OrientadoDerecha 1 a Avanzar 1 => L;, 

OrientadoDerecha a Girarlzquierda 1 => OrientadoArriba 1 

De esta manera résulta bastante difîcil construir una base de conocimiento compléta y 
correcta para guardar la pista de cada cosa que sucede en el mundo de wumpus\ pos- 
pondremos la discusiôn en su detalle para el Capitulo 10. Lo que nos proponemos ha- 
cer aqui es que la base de conocimiento inicial contenga sentencias como los dos 
ejemplos anteriores para cada instante de tiempo t, asi como para cada localizaciôn. Es 


13 El lector que sea observador se habrâ dado cuenta de que esto nos posibilitô afinar la conexiôn que hay 
entre las percepciones, como Brisa y la proposiciones acerca de la localizaciôn especffica, como B l t . 
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decir, que para cada instante de tiempo t y localizaciôn [x, y], la base de conocimiento 
contenga una sentencia del tipo 

L‘ xy a OrientadoDerecha' a Avanzar' => L[ + + \ y (7.3) 

Aunque pongamos un limite superior de pasos permitidos en el tiempo (por ejemplo 100) 
acabamos con decenas de miles de sentencias. Se présenta el mismo problema si anadimos 
las sentencias «a medida que las necesitemos» en cada paso en el tiempo. Esta prolifera- 
cion de clâusulas hace que la base de conocimiento sea ilegible para las personas, sin em¬ 
bargo, los resolutores râpidos en logica proposicional aün pueden manejar un mundo de 
wumpus de 4 X 4 con cierta facilidad (éstos encuentran su limite en los mundos de 
100 X 100 casillas). Los agentes basados en circuitos de la siguiente secciôn ofrecen una 
soluciôn parcial a este problema de proliferaciôn de las clâusulas, pero la soluciôn integra 
deberâ esperar hasta que hayamos desarrollado la logica de primer orden en el Capitule* 8. 


AGENTE BASAD0 EN 
CIRCUITOS 

CIRCUIT0 SECUENCIAL 

PUERTAS 

REGISTR0S 


Agentes basados en circuitos 

Un agente basado en circuitos es un tipo particular de agente reflexivo con estado in¬ 
terno, tal como se definio en el Capitulo 2. Las percepciones son las entradas de un cir- 
cuito secuencial (una red de puertas, cada una de ellas implémenta una conectiva 
logica, y de registros, cada uno de ellos almacena el valor lôgico de una proposicion ato- 
mica). Las salidas del circuito son los registros que se corresponden con las acciones, 
por ejemplo, la salida Agarrar se asigna a verdadero si el agente quiere coger algo. Si 
la entrada Resplandor se conecta directamente a la salida Agarrar, el agente cogéra el 
objetivo (el objeto oro ) siempre que vea el resplandor. ( Véase Ligura 7.20.) 


Brisa EU 
Mal hedor I I 



Avanzar 


Girarlzquierda 


GirarDerecha 


Agarrar 


Disparar 


Figura 7.20 Parte de un agente basado en circuitos para el mundo de wumpus, mostrando las en¬ 
tradas, las salidas, el circuito para coger el oro, y el circuito que détermina si el wumpus esta vivo. 
Los registros se muestran como rectângulos, y los retardos de un paso se muestran como pequenos 
triângulos. 
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FLUJO DE DATOS 


LlNEA DE RETARDO 


Los circuitos se evalüan de igual modo que los flujos de datos: en cada instante de 
tiempo, se asignan las entradas y se propagan las senales a través del circuito. Siempre 
que una puerta disponga de todas sus entradas, ésta produce una salida. Este proceso esta 
mtimamente relacionado con el de encadenamiento hacia delante en un grafo Y-O, 
como el de la Figura 7.15(b). 

En la seccion precedente dijimos que los agentes basados en circuitos manejan el 
tiempo de forma mas satisfactoria que los agentes basados en la inferencia proposicio- 
nal. Esto se debe a que cada registro nos da el valor de verdad de su correspondiente sim- 
bolo proposicional en el instante de tiempo actual t, en vez de disponer de una copia 
diferente para cada instante de tiempo. Por ejemplo, podriamos tener un registro para 
Vivo que deberia contener el valor verdadero cuando el wumpus esté vivo, y falso cuan- 
do esté muerto. Este registro se corresponde con el sfmbolo proposicional Vivo', de esta 
manera, en cada instante de tiempo el registro se refiere a una proposiciôn diferente. El 
estado intemo del agente, es decir, su memoria, mantiene conectando hacia atrâs la sa¬ 
lida de un registro con el circuito mediante una lînea de retardo. Este mecanismo nos 
da el valor del registro en el instante de tiempo previo. En la Figura 7.20 se muestra un 
ejemplo. El valor del registro Vivo se obtiene de la conjunciôn de la negacion del regis¬ 
tro Grito y de su propio valor anterior. En términos de proposiciones, el circuito del re¬ 
gistro Vivo implémenta la siguiente conectiva bicondicional 

Vivo 1 <=> ~^Grito' a Vivo‘~ l (7.4) 

que nos dice que el wumpus esta vivo en el instante t si y solo si no se percibe ningün 
grito en el instante t y estaba vivo en el instante t — 1. Asumimos que el circuito se ini- 
cializa con el registro Vivo asignado a verdadero. Por lo tanto, Vivo permanecerâ sien- 
do verdadero hasta que haya un grito, con lo que se convertira y se mantendrâ en el valor 
falso. Esto es exactamente lo que deseamos. 

La localizacion del agente se puede tratar, en mucho, de la misma forma que la sa- 
lud del wumpus. Necesitamos un registro L x para cada x e y; su valor deberia ser ver¬ 
dadero si el agente se encuentra en la casilla [x, y], Sin embargo, el circuito que asigna 
el valor de L xy es mucho mas complicado que el circuito para el registro Vivo. Por ejem¬ 
plo, el agente esta en la casilla [ 1 , 1 ] en el instante t si: (a) estaba alli en el instante t — 1 
y no se movio hacia delante o lo intenté pero tropezo con un muro; o (b) estaba en la 
casilla [ 1 , 2 ] orientado hacia abajo y avanzo; o (c) estaba en la casilla [ 2 , 1 ] orientado a 
la izquierda y avanzo: 

L\ | o (Lpj 1 a (-lAvanzar 1-1 v Tropezar')) 

v ( L[~ j 1 a ( OrientadoAbajo'~ l a Avanzar'~ 1 )) (7.5) 

v (L'Vi a ( OrientadoIzquierda'~ l a Avanzar' -1 )) 

En la Figura 7.21 se muestra el circuito para L ,. Cada registro de localizacion tiene en- 
lazado un circuito similar a éste. En el Ejercicio 7.13(b) se pide disenar un circuito para 
las proposiciones de orientacion. 

Los circuitos de las Figuras 7.20 y 7.21 mantienen los valores correctos de los re¬ 
gistres Vivo y L xy en todo momento. Sin embargo, estas proposiciones son extranas, en 
el sentido de que sus valores de verdad correctos siempre se pueden averiguar. En lu- 
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PROPOSICIONES 
ACERCA DEL 
CONOCIMIENTO 



Figura 7.21 El circuito para determinar si el agente esta en la casilla [1, 1], Cada registre de lo- 
calizaciôn y de orientacion tiene enlazado un circuito similar. 


gar de ello, consideremos la proposicion B 44 . en la casilla [4, 4] se percibe una brisa. 
Aunque el valor de verdad de esta proposicion se mantiene fijo, el agente no puede apren- 
der su valor hasta que haya visitado la casilla [4, 4] (o haya deducido que hay un hoyo 
cercano). Las logicas proposicional y de primer orden estân disenadas para representar 
proposiciones verdaderas, falsas, o inciertas, de forma automâtica. Los circuitos no pue- 
den hacerlo: el registre B 44 debe contener algûn valor, bien verdadero ofalso, aun an¬ 
tes de que se descubra su valor de verdad. El valor del registre bien podrfa ser el errôneo, 
y esto nos llevaria a que el agente se extraviara. En otras palabras, necesitamos repre¬ 
sentar très posibles estados (se sabe que B 44 es verdadero, falso, o desconocido) y solo 
tenemos un bit para representar estos estados. 

La soluciôn a este problema es utilizar dos bits en vez de uno. B 4 4 se puede repre¬ 
sentar mediante dos registres, a los que llamaremos K(B 44 ) y K(~<B 44 ), en donde K sig- 
nifica «conocido». (jTenga en cuenta que esta representacion consiste tan solo en unos 
simbolos con nombres complicados, aunque parezcan expresiones estmcturadas!) Cuan- 
do ambas, K(B 44 ) y K(~<B 44 ), son falsas, significa que el valor de verdad de B 44 es des¬ 
conocido. ( ; Si ambas son ciertas, enfonces la base de conocimiento tiene un fallo!) A 
partir de ahora, utilizariamos K(B 4 4 ) en vez de B 4 4 , siempre que ésta aparezca en algu- 
na parte del circuito. Por lo general, representamos cada proposicion que es potencial- 
mente indeterminada mediante dos proposiciones acerca del conocimiento para 
especificar si la proposicion subyacente se sabe que es verdadera y se sabe que es falsa. 

En breve veremos un ejemplo de como utilizar las proposiciones acerca del conoci¬ 
miento. Primero necesitamos resolver como determinar los valores de verdad de las pro- 
pias proposiciones acerca del conocimiento. Ffjese en que, mientras B 44 tiene un valor 
de verdad fijo, K(B 44 ) y K(->B 44 ) cambian a medida que el agente descubre mas cosas 
acerca del mundo. Por ejemplo, K(B 4 4 ) comienza siendo falsa y entonces se transforma 
en verdadera tan pronto como se puede determinar B 4 4 que es verdadera (es decir, cuan- 
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do el agente esta en la casilla [4, 4] y détecta una brisa). A partir de enfonces permane- 
ce siendo verdadera. Asf tenemos 


K{B aa )' <=> K(B 4A y-' v (L' 44 a Brisa 1 ) (7.6) 

Se puede escribir una ecuacion similar para K{~'B 4 4 )'. 

Ahora que el agente sabe acerca de las casillas con brisa, puede ocuparse de los ho- 
yos. La ausencia de un hoyo en una casilla se puede averiguar si y solo si se sabe que 
en una de sus casillas vecinas no hay ninguna brisa. Por ejemplo, tenemos 

K^H 44 y « K(^B 34 y v K^B^y (7.7) 

Determinar si hay un hoyo en una casilla es mas dificil, debe haber una brisa en una ca¬ 
silla adyacente que no sea causada por otro hoyo: 


K(H 44 y « (K(B 34 y A K(^H 24 y A K(^H 3i y) 
v (K(B 4 3 y a K^H 42 )< A K(^H X3 y) 


(7.8) 



ACl'CUCO 


Mientras que utilizar los circuitos para determinar la presencia o ausencia de hoyos pue¬ 
de resultar algo peliagudo, solo se necesitan un numéro constante de puertas para cada 
casilla. Esta propiedad es esencial si debemos construir agentes basados en circuitos que 
se pueden ampliar de forma razonable. En realidad ésta es una propiedad del propio mun- 
do de wumpus ; decimos que un entorno manifiesta localidad si el valor de verdad de 
una proposicion relevante se puede obtener observando solo un numéro constante de otras 
proposiciones. La localidad es muy sensible a la «fisica» précisa del entorno. Por ejem¬ 
plo, el dominio de los dragaminas (Ejercicio 7.11) no es un dominio localista, porque 
determinar si una mina se encuentra en una casilla dada puede requérir observar las ca¬ 
sillas que estân arbitrariamente lejos. Los agentes basados en circuitos no son siempre 
practicables para los dominios no localistas. 

Hay un asunto por el que hemos caminado de puntillas y con mucho cuidado: el tema 
es la propiedad de ser aci'clico. Un circuito es acfclico si cada uno de sus caminos en el 
que se conecta hacia atrâs la salida de un registro con su entrada se realiza mediante un 
elemento de retardo. jNecesitamos que todos los circuitos sean aciclicos porque los que 
no lo son, al igual que los artefactos fisicos, no funcionan! Estos pueden entrar en osci- 
laciones inestables produciendo valores indefinidos. Como ejemplo de un circuito clclico, 
tenga en cuenta la siguiente ampliaciôn de la Ecuacion (7.6): 


K(B 44 y <=> K(B 44 y - 1 


v (L‘ 4A a Brisa') v K(H X4 )‘ v 


(7.9) 


Los disyuntores extras, K(H 34 )' y K(H 4 ,)', permiten al agente determinar si hay brisa a 
partir del conocimiento de la presencia de hoyos en las casillas adyacentes, algo que pa- 
rece totalmente razonable. Pero ahora, desafortunadamente, tenemos que la deteccion 
de la brisa dépende de los hoyos adyacentes, y la deteccion de los hoyos dépende de las 
brisas adyacentes, si tenemos en cuenta la Ecuacion (7.8). Por lo tanto el circuito, en su 
conjunto, tendrfa ciclos. 

La dificultad no es que la Ecuacion (7.9) ampliada sea incorrecta. Mas bien, el pro- 
blema consiste en que las dependencias entrelazadas que se presentan en estas ecuacio- 
nes no se pueden resolver por el simple mecanismo de la propagaciôn de los valores de 
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verdad en el correspondiente circuito Booleano. La version aciclica utilizando la Ecua- 
cion (7.6), que détermina si hay brisa solo a partir de las observaciones directas en la ca- 
silla es incomplète/, en el sentido de que en algunos puntos, el agentes basado en circuitos 
podria saber menos que un agente basado en inferencia utilizando un procedimiento de 
inferencia completo. Por ejemplo, si hay una brisa en la casilla [1, 1], el agente basado 
en inferencia puede concluir que también hay una brisa en la casilla [2, 2], mientras que 
el agente basado en circuitos no puede hacerlo, utilizando la Ecuacion (7.6). Se puede cons- 
truir un circuito completo (después de todo, los circuitos secuenciales pueden emular cual- 
quier computador digital) pero séria algo signifieativamente mas complejo. 


Una comparaciôn 

Los agentes basados en inferencia y los basados en circuitos representan los extremos 
declarativo y procesal en el diseno de agentes. Se pueden comparar segün diversas di- 
mensiones: 

• Précision : el agente basado en circuitos, a diferencia del agente basado en inferencia, 
no necesita disponer de copias diferentes de su «conocimiento» para cada instante 
de tiempo. En vez de ello, éste solo se refiere al instante actual y al previo. Ambos 
agentes necesitan copias de la «fisica» de cada casilla (expresada mediante sentencias 
o circuitos), y por lo tanto, no se amplian adecuadamente a entornos mayores. En 
entomos con muchos objetos relacionados de forma compleja el nümero de pro- 
posiciones abrumarâ a cualquier agente proposicional. Este tipo de entomos requiere 
del poder expresivo de la lôgica de primer orden. ( Véase Capitulo 8.) Ademâs, am¬ 
bos tipos de agente proposicional estân poco preparados para expresar o resolver 
el problema de encontrar un camino a una casilla segura que esté cercana. (Por esta 
razon, el Agente-Wumpus-LP recurre a un algoritmo de büsqueda.) 

• Eficiencia computacional : en el peor de los casos, la inferencia puede tomar un 
tiempo exponencial respecto al nümero de simbolos, mientras que evaluar un cir¬ 
cuito toma un tiempo lineal respecto al tamano del circuito (o lineal respecto a la 
intensidad de integraciôn del circuito, si éste se construye como un dispositivo fi- 
sico). Sin embargo, vemos que en la prâctica, el DPLL realiza las inferencias re- 
queridas bastante râpidamente 14 . 

• Completitud : anteriormente insinuamos que el agente basado en circuitos podria 
ser incompleto, debido a la restriccion de que sea aciclico. Las causas de la in- 
completitud son en realidad mas bâsicas. Primero, recordemos que un circuito se 
ejecuta en tiempo lineal respecto a su tamano. Esto significa que, para algunos en¬ 
tornos, un circuito que sea completo (a saber, uno que calcula el valor de verdad 
de cada proposiciôn determinable) debe ser exponencialmente mas grande que la 
BC de un agente basado en inferencia. Dicho de otro modo, deberiamos poder re¬ 
solver el problema de la implicaciôn proposicional en menor tiempo que el tiem¬ 
po exponencial, lo que parece improbable. Una segunda causa es la naturaleza del 


14 De hecho, jtodas las inferencias hechas por un circuito se pueden hacer por el DPLL en tiempo lineal! Esto 
es debido a que la evaluacion de un circuito, al igual que el encadenamiento hacia delante, se puede emular 
mediante el DPLL, utilizando la régla de propagacion unitaria. 
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estado interno del agente. El agente basado en inferencia recuerda cada percep- 
ciôn que ha tenido, y conoce, bien implicita o explfcitamente, cada sentencia que 
se sigue de las percepciones y la BC inicial. Por ejemplo, dado B l ,, cl agente co¬ 
noce la disyunciôn // 12 v /7, p de lo cual se sigue 2 . Por el otro lado, el agente 
basado en circuitos olvida todas sus percepciones anteriores y recuerda tan solo 
las proposiciones individuales almacenadas enlos registres. De este modo, H l2 y 
H 2 j permanecen desconocidas cada una de ellas aün después de la primera per- 
cepciôn, as! que no se sacarâ ninguna conclusion acerca de B 22 . 

• Facilidad de construcciôn : este es un aspecto muy importante acerca del cual es 
dificil ser precisos. Desde luego, los autores encontramos mucho mas fâcil espe- 
cificar la «fîsica» de forma declarativa, mientras que idear pequenos circuitos acl- 
clicos, y no demasiado incompletos, para la detecciôn directa de hoyos, nos ha 
parecido bastante dificultoso. 

En suma, parece que hay compensaciones entre la eficiencia computacional, la conci¬ 
sion, la completitud y la facilidad de construcciôn. Cuando la conexiôn entre las per¬ 
cepciones y las acciones es simple (como en la conexiôn entre Resplandor y Agarrar) 
un circuito parece que es ôptimo. En un dominio como el ajedrez, por ejemplo, las ré¬ 
glas declarativas son concisas y fâcilmente codificables (como mmimo en la lôgica de 
primer orden), y en cambio, utilizar un circuito para calcular los movimientos directa- 
mente a partir de los estados del tablera, séria un esfuerzo inimaginablemente enorme. 

Podemos observar estos diferentes tipos de compensaciones en el reino animal. Los ani¬ 
males inferiores, con sus sistemas nerviosos muy sencillos, quizâ estén basados en circui¬ 
tos, mientras que los animales superiores, incluyendo a los humanos, parecen realizar 
inferencia con base en representaciones explicitas. Esta caracteristica les permite ejecutar 
funciones mucho mas complejas de un agente. Los humanos también disponen de circui- 
compilaciôn tos para implementar sus reflejos, y quizâ, también para compilar sus representaciones de¬ 

clarativas en circuitos, cuando ciertas inferencias pasan a ser una rutina. En este sentido, el 
diseno de un agente hibrido (véase Capitulo 2) podria poseer lo mejor de ambos mundos. 


7.8 Resumen 


Hemos introducido los agentes basados en conocimiento y hemos mostrado como défi¬ 
nir una lôgica con la que los agentes pueden razonar acerca del mundo. Los principales 
puntos son los siguientes: 

• Los agentes inteligentes necesitan el conocimiento acerca del mundo para tomar 
las decisiones acertadas. 

• Los agentes contienen el conocimiento en forma de sentencias mediante un len- 
guaje de representaciôn del conocimiento, las cuales quedan almacenadas en una 
base de conocimiento. 

• Un agente basado en conocimiento se compone de una base de conocimiento y un 
mecanismo de inferencia. El agente opéra almacenando las sentencias acerca del 
mundo en su base de conocimiento, utilizando el mecanismo de inferencia para 
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inferir sentencias nuevas, y utilizando estas sentencias nuevas para decidir qué ac- 
ciôn debe tomar. 

• Un lenguaje de representaciôn del conocimiento se define por su sintaxis, que es- 
pecifica la estructura de las sentencias, y su semântica, que define el valor de ver- 
dad de cada sentencia en cada mundo posible, o modelo. 

• La relaciôn de implicaciôn entre las sentencias es crucial para nuestro entendi- 
miento acerca del razonamiento. Una sentencia a implica otra sentencia f3 si /3 es 
verdadera en todos los mundos donde a lo es. Las definiciones familiares a este 
concepto son: la validez de la sentencia a => ;S, y la insatisfacibilidad de la sen¬ 
tencia a a —'/3. 

• La inferencia es el proceso que consiste en derivar nuevas sentencias a partir de 
las ya existentes. Los algoritmos de inferencia sôlidos solo derivan aquellas sen¬ 
tencias que son implicadas; los algoritmos completos derivan todas las sentencias 
implicadas. 

• La lôgica proposicional es un lenguaje muy sencillo compuesto por los simbo- 
los proposicionales y las conectivas lôgicas. De esta manera se pueden manejar 
proposiciones que se sabe son ciertas, falsas, o completamente desconocidas. 

• El conjunto de modelos posibles, dado un vocabulario proposicional fijado, es fi- 
nito, y asi se puede comprobar la implicaciôn tan solo enumerando los modelos. 
Los algoritmos de inferencia basados en la comprobaciôn de modelos mas efi- 
cientes para la lôgica proposicional, entre los que se encuentran los métodos de 
büsqueda local y backtracking, a menudo pueden resolver problemas complejos 
muy râpidamente. 

• Las réglas de inferencia son patrones de inferencia sôlidos que se pueden utili- 
zar para encontrar demostraciones. De la régla de resoluciôn obtenemos un algo- 
ritmo de inferencia completo para bases de conocimiento que estân expresadas en 
forma normal conjuntiva. El encadenamiento hacia delante y el encadena- 
miento hacia atrâs son algoritmos de razonamiento muy adecuados para bases 
de conocimiento expresadas en clâusulas de Horn. 

• Se pueden disenar dos tipos de agentes que utilizan la lôgica proposicional: los 
agentes basados en inferencia utilizan algoritmos de inferencia para guardar la 
pista del mundo y deducir propiedades ocultas, mientras que los agentes basados 
en circuitos representan proposiciones mediante bits en registros, y los actualizan 
utilizando la propagaciôn de senal de los circuitos lôgicos. 

• La lôgica proposicional es razonablemente efectiva para ciertas tareas de un agen¬ 
te, pero no se puede escalar para entornos de tamano ilimitado, a causa de su fal- 
ta de poder expresivo para manejar el tiempo de forma précisa, el espacio, o 
patrones genéricos de relaciones entre objetos. 



Notas bibliogrâficas e histôricas 

La ponencia «Programas con Sentido Comün» de John McCarthy (McCarthy, 1958, 
1968) promulgaba la nociôn de agentes que utilizan el razonamiento lôgico para mediar 
entre sus percepciones y sus acciones. En él también erigiô la bandera del declarativis- 
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mo, senalando que decirle a un agente lo que necesita saber es una forma muy elegan- 
te de construir software. El articulo «El Nivel de Conocimiento» de Allen Newell (1982) 
propone que los agentes racionales se pueden describir y analizar a un nivel abstracto 
definido a partir del conocimiento que el agente posee mas que a partir de los progra- 
mas que ejecuta. En Boden (1977) se comparan los enfoques declarativo y procédural 
en la IA. Este debate fue reanimado, entre otros, por Brooks (1991) y Nilsson (1991). 

La Logica tiene sus origenes en la Filosofia y las Matemâticas de los Griegos 
antiguos. En los trabajos de Platon se encuentran esparcidos diversos principios lôgi- 
cos (principios que conectan la estructura sintâctica de las sentencias con su verdad o 
falsedad, con su significado, o con la validez de los argumentas en los que aparecen). 
El primer estudio sistemâtico acerca de la logica que se conoce lo llevô a cabo Aris- 
tateles, cuyo trabajo fue recopilado por sus estudiantes después de su muerte, en el 
silogismos 322 a.C., en un tratado denominado Organon. Los silogismos de Aristateles fueron lo 

que ahora podriamos llamar réglas de inferencia. Aunque los silogismos tenian ele- 
mentos, tanto de la logica proposicional como de la de primer orden, el sistema como 
un todo era algo endeble segün los estândares actuales. No permitio aplicar los patro- 
nes de inferencia a sentencias de complejidad diversa, cosa que si lo permite la logica 
proposicional moderna. 

Las escuelas mtimamente ligadas de los estoicos y los megarianos (que se origina- 
ron en el siglo v d.C. y continuaron durante varios siglos después) introdujeron el estu¬ 
dio sistemâtico de la implicacion y otras estructuras bâsicas que todavia se utilizan en 
la logica proposicional moderna. La utilizacion de las tablas de verdad para définir las 
conectivas logicas se debe a Filo de Megara. Los estoicos tomaron como validas cinco 
réglas de inferencia bâsicas sin demostrarlas, incluyendo la régla que ahora denomina- 
mos Modus Ponens. Derivaron un buen nümero de réglas a partir de estas cinco, utili- 
zando entre otros principios, el teorema de la deduccion (pâgina 236) y fueron mucho 
mâs claros que Aristateles acerca del concepto de demostracion. Los estoicos afirma- 
ban que su logica era compléta, en el sentido de ser capaz de reproducir todas las infe- 
rencias vâlidas; sin embargo, lo que de ellos queda es un conjunto de explicaciones 
demasiado fragmentadas. Que se sepa, un buen relato acerca de las logicas Megariana 
y Estoica es el texto de Benson Mates (1953). 

La idea de reducir la logica a un proceso puramente mecânico, aplicado a un len- 
guaje formai es de Leibniz (1646-1716). Sin embargo, su propia logica matemâtica era 
gravemente déficiente, y él es mucho mâs recordado simplemente por introducir estas 
ideas como objetivos a alcanzar que por sus intentos de lograrlo. 

George Boole (1847) introdujo el primer sistema detallado y factible sobre logica for¬ 
mai en su libre El anâlisis Matemâtico de la Logica. La logica de Boole estaba totalmente 
modelada a partir del âlgebra de los nümeros reales y utilizô la sustituciôn de expresio- 
nes logicamente équivalentes como su principal método de inferencia. Aunque el siste¬ 
ma de Boole no abarcaba toda la logica proposicional, estaba lo bastante cerca como para 
que otros matemâticos completaran las lagunas. Schrôder (1877) describio la forma nor¬ 
mal conjuntiva, mientras que las clâusulas de Horn fueron introducidas mucho mâs tar¬ 
de por Alfred Horn (1951). La primera explicacion compléta acerca de la logica 
proposicional moderna (y de la logica de primer orden) se encuentra en el Begrijfschrift 
(«Escritura de Conceptos» o «Notacion conceptual») de Gottlob Frege (1879). 
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El primer artefacto mecânico para llevar a cabo inferencias lôgicas fue construido 
por el tercer Conde de Stanhope (1753-1816). El demostrador de Stanhope podia ma- 
nejar silogismos y ciertas inferencias con la teoria de las probabilidades. William Stan¬ 
ley levons, uno de esos que hizo mejoras y ampliô el trabajo de Boole, construyô su 
«piano logico» en 1869, artefacto para realizar inferencias en lôgica Booleana. En el tex¬ 
te» de Martin Gardner (1968) se encuentra una historia entretenida e instructiva acerca 
de estos y otros artefactos mecânicos modernos utilizados para el razonamiento. El pri¬ 
mer programa de computador para la inferencia lôgica publicado fue el Teôrico Logico 
de Newell, Shaw y Simon (1957). Este programa ténia la intenciôn de modelar los pro- 
cesos del pensamiento humano. De hecho, Martin Davis (1957) habia disenado un pro¬ 
grama similar que habia presentado en una demostraciôn en 1954, pero los resultados 
del Teôrico Logico fueron publicados un poco antes. Tanto el programa de 1954 de Da¬ 
vis como el Teôrico Logico estaban basados en algunos métodos ad hoc que no influ- 
yeron fuertemente mas tarde en la deducciôn automâtica. 

Las tablas de verdad, como un método para probar la validez o insatisfacihilidad 
de las sentencias en el lenguaje de la lôgica proposicional, fueron introducidas por se- 
parado, por Ludwig Wittgenstein (1922) y Emil Post (1921). En los anos 30 se reali- 
zaron una gran cantidad de avances en los métodos de inferencia para la lôgica de 
primer orden. En concreto, Gôdel (1930) demostrô que se podia obtener un procedi- 
miento completo para la inferencia en lôgica de primer orden, mediante su reducciôn 
a la lôgica proposicional utilizando el teorema de Herbrand (Herbrand, 1930). Reto- 
maremos otra vez esta historia en el Capitulo 9; aqui el punto importante es que el des- 
arrollo de los algoritmos proposicionales eficientes de los anos 60 fue causado en gran 
parte, por el interés de los matemâticos en un demostrador de teoremas efectivo para 
la lôgica de primer orden. El algoritmo de Davis y Putnam (Davis y Putnam, 1960) 
fue el primer algoritmo efectivo para la resoluciôn proposicional, pero en muchos ca- 
sos era menos eficiente que el algoritmo DPLL con hacktracking introducido dos anos 
después (1962). En un trabajo de gran influencia de J. A. Robinson (1965) apareciô 
la régla de resoluciôn general y una demostraciôn de su completitud, en el que tam- 
bién se mostrô como razonar con lôgica de primer orden, sin tener que recurrir a las 
técnicas proposicionales. 

Stephen Cook (1971) demostrô que averiguar la satisfacibilidad de una sentencia en 
lôgica proposicional es un problema NP-completo. Ya que averiguar la implicaciôn es 
équivalente a averiguar la insatisfacibilidad, éste es un problema co-NP-completo. Se 
sabe que muchos subconjuntos de la lôgica proposcional se pueden resolver en un tiem- 
po polinômico; las clâusulas de Horn son uno de estos subconjuntos. El algoritmo de 
encadenamiento hacia delante en tiempo lineal para las clâusulas de Horn se debe a Do- 
wling y Gallier (1984), quienes describen su algoritmo como un proceso de flujo de da¬ 
tas parecido a la propagaciôn de senales en un circuito. La satisfacibilidad ha sido uno 
de los ejemplos canônicos para las reducciones NP; por ejemplo, Kaye (2000) demos¬ 
trô que el juego del dragaminas ( véase Ejercicio 7.11) es NP-completo. 

Los algoritmos de büsqueda local para la satisfacibilidad se intentaron por diversos 
autores en los 80; todos los algoritmos estaban basados en la idea de minimizar las clâu¬ 
sulas insatisfechas (Hansen y Jaumard, 1990). Un algoritmo particularmente efectivo fue 
desarrollado por Gu (1989) e independientemente por Selman et al. (1992), quien lo lia- 
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mô GSAT y demostrô que era capaz de resolver muy râpidamente un amplio rango de 
problemas muy duras. El algoritmo SAT-CAMINAR descrito en el capltulo es de Sel- 
man et al. (1996). 

La «transiciôn de fase» en los problemas aleatorios A S AT de satisfacibilidad fue iden- 
tificada por primera vez por Simon y Dubois (1989). Los resultados empiricos de Craw- 
ford y Auton (1993) sugieren que se encuentra en el valor del ratio clâusula/variable 
alrededor de 4,24 para problemas grandes de 3-SAT; este trabajo también describe una 
implementacion muy eficiente del DPLL. (Bayardo y Schrag, 1997) describen otra im- 
plementaciôn eficiente del DPLL utilizando las técnicas de satisfacciôn de restricciones, 
y (Moskewicz et al. 2001) describen el CHALL, que resuelve problemas de verificaciôn 
de hardware con millones de variables y que fue el ganador de la Competiciôn S AT 2002. 
Li y Anbulagan (1997) analizan las heurfsticas basadas en la propagaciôn unitaria que 
permiten que los resolutores sean mas râpidos. Cheeseman et al. (1991) proporcionan 
datos acerca de un numéro de problemas de la misma familia y conjeturan que todos los 
problemas NP duras tienen una transiciôn de fase. Kirkpatrick y Selman (1994) describen 
mecanismos mediante los cuales la flsica estadlstica podrfa aclarar de forma précisa las 
«condiciones» que definen la transiciôn de fase. Los anâlisis teôricos acerca de su locali- 
zaciôn son todavla muy flojos: todo lo que se puede demostrar es que se encuentra en 
el rango [3.003, 4.598] para 3-SAT aleatorio. Cook y Mitchell (1997) hacen un exce- 
lente repaso de los resultados en este y otros temas relacionados con la satisfacibilidad. 

Las investigaciones teôricas iniciales demostraron que DPLL tiene una complejidad 
media polinômica para ciertas ditribuciones normales de problemas. Este hecho, po- 
tencialmente apasionante, pasô a ser menos apasionante cuando Lranco y Pauli (1983) 
demostraron que los mismos problemas se podian resolver en tiempo constante simple- 
mente utilizando asignaciones aleatorias. El método de generaciôn aleatoria descrito en 
el capltulo tiene problemas mas duros. Motivados por el éxito emplrico de la büsqueda 
local en estos problemas, Koutsoupias y Papadimitriou (1992) demostraron que un al¬ 
goritmo sencillo de ascension de colina puede resolver muy râpido casi todas las ins- 
tancias del problema de la satisfacibilidad', sugiriendo que los problemas duros son poco 
frecuentes. Mas aün, Schôning (1999) présenté una variante aleatoria de GSAT cuyo tiem¬ 
po de ejecuciôn esperado en el peor de los casos era de 1.333" para los problemas 3-SAT 
(todavla exponencial, pero sustancialmente mas râpido que los limites previos para los 
peores casos). Los algoritmos de satisfacibilidad son todavla una area de investigaciôn 
muy activa; la colecciôn de artlculos de Du et al. (1999) proporciona un buen punto de 
arranque. 

Los agentes basados en circuitos se remontan al trabajo de gran influencia de McCu- 
lloch y Pitts (1943), quienes iniciaron el campo de las redes neuronales. Al contrario del 
supuesto popular, el trabajo trata de la implementacion del diseno de un agente basado 
en circuitos Booleanos en su cerebro. Sin embargo, los agentes basados en circuitos han 
recibido muy poca atenciôn en la IA. La excepciôn mas notable es el trabajo de Stan Ro- 
senschein (Rosenschein, 1985; Kaelbling y Rosenschein, 1990), quienes desarrollaron 
mecanismos para compilar agentes basados en circuitos a partir de las descripciones de- 
clarativas del entorno y la tarea. Los circuitos para actualizar las proposiciones almace- 
nadas en registres estân Intimamente relacionados con el axioma del estado sucesor 
desarrollado para la lôgica de primer orden por Reiter (1991). El trabajo de Rod Brooks 
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(1986, 1989) demuestra la efectividad de los disenos basados en circuitos para contro- 
lar robots (un tema del que nos ocuparemos en el Capftuio 25). Brooks (1991) sostiene 
que los disenos basados en circuitos son todo lo que se necesita en la IA (dicha repre- 
sentacion y razonamiento es algo incômodo, costoso, e innecesario). Desde nuestro 
punto de vista, ningün enfoque es suficiente por si mismo. 

El mundo de wumpus fue inventado por Gregory Yob (1975). Irônicamente, Yob lo 
desarrollo porque estaba aburrido de los juegos basados en una matriz: la topologia de 
su mundo de wumpus original era un dodecahedro; nosotros lo hemos retornado a la abu- 
rrida matriz. Michael Genesereth fue el primero en sugerir que se utilizara el mundo de 
wumpus para evaluar un agente. 



EJERCICIOS 

7.1 Describa el mundo de wumpus segün las caracteristicas de entorno tarea listadas 
en el Capitulo 2. 

7.2 Suponga que el agente ha avanzado hasta el instante que se muestra en la Figura 
7.4(a), sin haber percibido nada en la casilla [1, 1], una brisa en la [2, 1], y un hedor en 
la [1, 2], y en estos momentos esta interesado sobre las casillas [1, 3], [2, 2] y [3, 1]. Cada 
una de ellas puede tener un hoyo y como mucho en una se encuentra el wumpus. Si- 
guiendo el ejemplo de la Figura 7.5, construya el conjunto de los mundos posibles. (De- 
beria encontrar unos 32 mundos.) Marque los mundos en los que la BC es verdadera y 
aquellos en los que cada una de las siguientes sentencias es verdadera: 


a 2 = «No hay ningün hoyo en la casilla [2, 2]» 
a 3 = «Hay un wumpus en la casilla [1, 3]» 

Por lo tanto, demuestre que BC \= a 2 y BC |= a 3 . 

7.3 Considéré el problema de decidir si una sentencia en logica proposicional es ver¬ 
dadera dado un modelo. 


a) Escriba un algoritmo recursivo ^ Verd a d h r a -LP ? ( s, m) que devuelva verdade- 
ro si y solo si la sentencia s es verdadera en el modelo m (donde el modelo m 
asigna un valor de verdad a cada simbolo de la sentencia 5 ). El algoritmo de- 
berfa ejecutarse en tiempo lineal respecto al tamano de la sentencia. (De forma 
alternativa, utiliza una version de esta funcion del repositorio de codigo en li- 
nea, online.) 

b) Dé très ejemplos de sentencias de las que se pueda determinar si son verdade- 
ras o falsas dado un modelo parcial, que no especifique el valor de verdad de 
algunos de los simbolos. 

c) Demuestre que el valor de verdad (si lo tiene) de una sentencia en un modelo 
parcial no se puede determinar, por lo general, eficientemente. 

d) Modifique el algoritmo ^Verdadera-LP? para que algunas veces pueda juzgar 
la verdad a partir de modelos parciales, manteniendo su estructura recursiva y 
tiempo de ejecucion lineal. Dé très ejemplos de sentencias de las cuales no se 
detecte su verdad en un modelo parcial mediante su algoritmo. 
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e ) Investigue si el algoritmo modificado puede hacer que ^ImplicaciÔn-TV? sea 
mas eficiente. 

7.4 Demuestre cada una de las siguientes aserciones: 

a) a es vâlido si y solo si Verdadero f= a. 

b) Para cualquier a, Falso |= a. 

c ) a /3 si y solo si la sentencia (a => /3) es valida. 

d) a = f3 si y solo si la sentencia (a <=> /3) es valida. 

e ) a (= /3 si y solo si la sentencia (a a —>/3) es insatisfacible. 

7.5 Considéré un vocabulario con solo cuatro proposiciones, A, B, C, y D. ^Cuântos 
modelos hay para las siguientes sentencias? 

a) (A a B) v (B a C) 

b ) A vB 

c ) A <=> B <=> C 

7.6 Hemos definido cuatro conectivas lôgicas binarias. 

a) ;,Hay otras conectivas que podrian ser ütiles? 

b) / C uan tas conectivas binarias puede haber? 

c ) / ; Por qué algunas de ellas no son muy ütiles? 

7.7 Utilizando un método a tu elecciôn, verifique cada una de las equivalencias de la 
Figura 7.11. 

7.8 Demuestre para cada una de las siguientes sentencias, si es valida, insatisfacible, 
o ninguna de las dos cosas. Verifique su decision utilizando las tablas de verdad o las 
equivalencias de la Figura 7.11. 

a) Humo => Humo 

b) Humo => Fuego 

c) (Humo => Fuego ) => (->Humo => -'Fuego) 

d ) Humo v Fuego v -'Fuego 

e) {{Humo a Calor) => Fuego) o {{Humo => Fuego) v {Calor => Fuego)) 

f ) {Humo => Fuego) => {{Humo a Calor) => Fuego) 

g) Grande v Mu do v {Grande => Mudo) 

h ) {Grande a Mudo) v -'Mudo 

7.9 (Adaptado de Barwise y Etchemendy (1993).) Dado el siguiente pârrafo, ^puede 
demostrar que el unicornio es un animal mitologico? ^que es mâgico?, /t|uc tiene cuer- 
nos? 

Si el unicornio es un animal mitologico, entonces es inmortal, pero si no es mi- 
tolôgico, entonces es un marmfero mortal. Si el unicornio es inmortal o marnl- 
fero, entonces tiene cuernos. El unicornio es mâgico si tiene cuernos. 

7.10 Cualquier sentencia en lôgica proposicional es lôgicamente équivalente a la aser- 
cion de que no se présenta el caso en que cada mundo posible la haga falsa. Demuestre 
a partir de esta observacion que cualquier sentencia se puede escribir en FNC. 
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7.11 El muy conocido juego del dragaminas esta mtimamente relacionado con el mun- 
do de wumpus. Un mundo del dragaminas es una matriz rectangular de A casillas con 
M minas invisibles esparcidas por la matriz. Cualquier casilla puede ser visitada por el 
agente; si se encuentra que hay una mina obtiene una muerte instantânea. El dragami¬ 
nas indica la presencia de minas mostrando en cada casilla visitada el numéro de minas 
que se encuentran alrededor directa o diagonalmente. El objetivo es conseguir visitar to- 
das las casillas libres de minas. 

a) Dejemos que X t . sea verdarero si y solo si la casilla [i,j] contiene una mina. Ano- 
te en forma de sentencia la asercion de que hay exactamente dos minas adya- 
centes a la casilla [1, 1] apoyândose en alguna combinaciôn lôgica de 
proposiciones con X tj . 

b ) Generalice su asercion de la pregunta (a) explicando cômo construir una sen¬ 
tencia en FNC que aserte que k de n casillas vecinas contienen minas. 

c) Explique de forma detallada, cômo un agente puede utilizar DPLL para de- 
mostrar que una casilla contiene (o no) una mina, ignorando la restricciôn glo¬ 
bal de que hay exactamente M minas en total. 

d) Suponga que la restricciôn global se construye mediante su método de la pre¬ 
gunta (b). / ; C6mo dépende el numéro de clâusulas de M y A? Proponga una va- 
riaciôn del DPLL para que la restricciôn global no se tenga que representar 
explicitamente. 

e ) ^Algunas conclusiones derivadas con el método de la pregunta (c) son invali- 
dadas cuando se tiene en cuenta la restricciôn global? 

/) Dé ejempos de configuraciones de explorar valores que induzcan dependencias 
a largo plazo como la que généra que el contenido de una casilla no explorada 
darfa informaciôn acerca del contenido de una casilla bastante distante. \Pista: 
pmebe primera con un tablera de A X 1.] 

7.12 Este ejercicio trata de la relaciôn entre las clâusulas y las sentencias de implica- 
ciôn. 

a) Demuestre que la clâusula (~>P l v • • • v -i P m v Q) es lôgicamente équivalente a 
la implicaciôn (P, a • • • a P m ) => Q. 

b ) Demuestre que cada clâusula (sin tener en cuenta el nümero de literales positi- 
vos) se puede escribir en la forma (P, a • • • a P m ) =î> v • • • v <2J, donde las 
P s y las Qs son sfmbolos proposicionales. Una base de conocimiento compuesta 
por este tipo de sentencia estâ en forma normal implicativa o forma de Ko- 
walski. 

c) Interprète la régla de resoluciôn general para las sentencias en forma normal im¬ 
plicativa. 

7.13 En este ejercicio disenaremos mâs cosas del agente wumpus basado en circuitos. 

a) Escriba una ecuaciôn, similar a la Ecuaciôn (7.4), para la proposiciôn Flécha, 
que deberia ser verdadera cuando el agente aün tiene una flécha. Dibuje su cir- 
cuito correspondiente. 

b ) Repita la pregunta (a) para OrientadoDerecha, utilizando la Ecuaciôn (7.5) 
como modelo. 
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c ) Créé versiones de las Ecuaciones 7.7 y 7.8 para encontrar el wumpus, y dibuje 
el circuito. 

7.14 Discuta lo que quiere significar un comportamiento ôptimo en el mundo de wum¬ 
pus. Demuestre que nuestra definicion de Agente-Wumpus-LP no es optima, y 
sugiera mecanismos para mejorarla. 

7.15 Amplie el Agente-Wumpus-LP para que pueda guardar la pista de todos los 
hechos relevantes que estân dentro de su base de conocimiento. 

7.16 ^Cuânto se tarda en demostrar que BC f= a utilizando el DPLL cuando a es un 
literal que ya esta en la BC ? Expliquelo. 

7.17 Traza el comportamiento del DPLL con la base de conocimiento de laLigura 7.15 
cuando intenta demostrar Q, y compare este comportamiento con el del algoritmo del 
encadenamiento hacia delante. 




Lôgica de primer orden 


Donde nos daremos cuenta de que el mundo estâ bendecido con muchos objetos, 
que algunos de los cuales estân relacionados con otros objetos, y nos esforzamos 
en razonar sobre ellos. 


En el Capftulo 7 demostramos como un agente basado en el conocimiento podla représen¬ 
tai - el mundo en el que actuaba y deducir qué acciones debla llevar a cabo. En el capltulo 
anterior utilizamos la lôgica proposicional como nuestro lenguaje de representaciôn, por- 
que nos bastaba para ilustrar los conceptos fondamentales de la lôgica y de los agentes ba- 
sados en el conocimiento. Desafortunadamente, la lôgica proposicional es un lenguaje 
demasiado endeble para representar de forma précisa el conocimiento de entomos complejos. 
En este capitulo examinaremos la lôgica de primer orden 1 que es lo suficientemente ex- 
presiva como para representar buena parte de nuestro conocimiento de sentido comün. La 
lôgica de predicados también subsume, o forma la base para, muchos otros lenguajes de 
representaciôn y ha sido estudiada intensamente durante varias décadas. En la Secciôn 8.1 
comenzamos con una breve discusiôn general acerca de los lenguajes de representaciôn; 
en la Secciôn 8.2, se muestra la sintaxis y la semântica de la lôgica de primer orden; y en 
la Secciôn 8.3 se ilustra el uso de la lôgica de primer orden en representaciones sencillas. 


8.1 Révision de la representaciôn 


En esta secciôn, discutiremos acerca de la naturaleza de los lenguajes de representaciôn. 
Esta discusiôn nos llevarâ al desarrollo de la lôgica de primer orden, un lenguaje mu- 


También denominada Câlculo de Predicados (de Primer Orden), algunas veces se abrevia mediante LP o CP. 
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cho mas expresivo que la logica proposicional, que introdujimos en el Capitulo 7. Ve- 
remos la logica proposicional y otros tipos de lenguajes para entender lo que funciona 
y lo que no. Nuestra discusion sera râpida, resumiendo siglos del pensamiento humano, 
de ensayo y error, todo ello en unos pocos pârrafos. 

Los lenguajes de programacion (como C+ + , o Java, o Lisp) son, de lejos, la cla- 
se mas amplia de lenguajes formales de uso comün. Los programas representan en si 
mismos, y de forma directa, solo procesos computacionales. Las estructuras de datos 
de los programas pueden representar hechos; por ejemplo, un programa puede utili- 
zar una matriz de 4 X 4 para representar el contenido del mundo de wumpus. De esta 
manera, una sentencia de un lenguaje de programacion como Mundo\ 2, 2] «— Hoyo, 
es una forma bastante natural de expresar que hay un hoyo en la casilla [2, 2], (A es¬ 
tas representaciones se les puede considerar ad lioc\ los sistemas de bases de datos fue- 
ron desarrollados para proporcionar una manera mas genérica, e independiente del 
dominio, de almacenar y recuperar hechos.) De lo que carecen los lenguajes de pro¬ 
gramacion, es de algün mecanismo general para derivar hechos de otros hechos; cada 
actualizacion de la estructura de datos se realiza mediante un procedimiento especi- 
fico del dominio, cuyos detalles se derivan del conocimiento acerca del dominio del 
o de la programadora. Este enfoque procédural puede contrastar con la naturaleza 
declarativa de la logica proposicional, en la que el conocimiento y la inferencia se en- 
cuentran separados, y en la que la inferencia se realiza de forma totalmente indepen¬ 
diente del dominio. 

Otro inconveniente de las estructuras de datos de los programas (y de las bases de 
datos, respecto a este tema) es la falta de un mecanismo sencillo para expresar, por ejem¬ 
plo, «Hay un hoyo en la casilla [2, 2] o en la [3, 1]» o «Si hay un wumpus en la casilla 
[1, 1] entonces no hay ninguno en la [2, 2]». Los programas pueden almacenar un valor 
ünico para cada variable, y algunos sistemas permiten el valor «desconocido», pero ca¬ 
recen de la expresividad que se necesita para manejar informacion incompleta. 

La logica proposicional es un lenguaje declarativo porque su semântica se basa en 
la relacion de verdad entre las sentencias y los mundos posibles. Lo que tiene el sufi- 
ciente poder expresivo para tratar informacion incompleta, mediante la disyunciôn y la 
conjuncion. La logica proposicional présenta una tercera caracteristica que es muy de- 
seable en los lenguajes de representaciôn, a saber, la composicionalidad. En un lenguaje 
composicional, el significado de una sentencia es una funciôn del significado de sus par¬ 
tes. Por ejemplo, « M 1 4 aM, ,» esta relacionada con los significados de «M , 4 » y «M , 2 ». 
Séria muy extrano que «M { 4 » significara que hay mal hedor en la casilla [1,4], que «M, 2 » 
significara que hay mal hedor en la casilla [1, 2], y que en cambio, «/Vf, 4 a M ] 2 » signi- 
ficara que Francia y Polonia empataran en el partido de jockey de calificaciôn de la ül- 
tima semana. Esta claro que la no composicionalidad repercute en que al sistema de 
razonamiento le sea mucho mas dificil subsistir. 

Tal como vimos en el Capitulo 7, la logica proposicional carece del poder expresi¬ 
vo para describir de forma précisa un entorno con muchos objetos. Por ejemplo, estâ- 
bamos forzados a escribir réglas separadas para cada casilla al hablar acerca de las 
brisas y de los hoyos, tal como 


B u « 
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OBJETOS 

RELACIONES 

FUNCIONES 


Por otro lado, en el lenguaje natural parece bastante sencillo decir, de una vez por to- 
das, que «En las casillas adyacentes a hoyos se percibe una pequena brisa». De alguna 
manera, la sintaxis y la semântica del lenguaje natural nos hace posible describir el en- 
torno de forma précisa. 

De hecho, si lo pensamos por un momento, los lenguajes naturales (como el inglés 
o el castellano) son muy expresivos. Hemos conseguido escribir casi la totalidad de este 
libro en lenguaje natural, solo con lapsos ocasionales en otros lenguajes (incluyendo la 
lôgica, las matemâticas, y los lenguaje de diagramas visuales). En la lingüistica y la fi- 
losofia del lenguaje hay una larga tradiciôn que ve el lenguaje natural esencialmente como 
un lenguaje declarativo de representacion del conocimiento e intenta définir su semân¬ 
tica formai. Como en un programa de investigaciôn, si tuviera éxito séria de gran valor 
para la inteligencia artificial, porque esto permitirfa utilizar un lenguaje natural (o alguna 
variaciôn) con los sistemas de representacion y razonamiento. 

El punto de vista actual sobre el lenguaje natural es que sirve para un propôsito 
algo diferente, a saber, como un medio de comunicaciôn mas que como una pura re¬ 
presentacion. Cuando una persona senala y dice, «;Mira!», el que le oye llega a saber 
que lo que dice es que Superman finalmente ha aparecido sobre los tejados. Con ello, 
no queremos decir que la sentencia «;Mira!» expresa ese hecho. Mas bien, que el sig- 
nificado de la sentencia dépende tanto de la propia sentencia como del contexto al que 
la sentencia hace referencia. Esta claro que uno no podria almacenar una sentencia 
como « jMira!» en una base de conocimiento y esperar recuperar su significado sin ha- 
ber almacenado también una representacion de su contexto, y esto révéla la proble- 
mâtica de como se puede representar el propio contexto. Los lenguajes naturales 
también son composicionales (el significado de una sentencia como «Entonces ella lo 
vio» puede depender de un contexto construido a partir de muchas sentencias prece¬ 
dentes y posteriores a ella). Por ültimo, los lenguajes naturales sufren de la ambi- 
güedad, que puede causar ciertos obstâculos en su comprensiôn. Tal como comenta 
Pinker (1995): «Cuando la gente piensa acerca de la primavera, seguramente no se con- 
funden sobre si piensan acerca de una estaciôn o algo que va ^boing? (y si una pala¬ 
bra se puede corresponder con dos pensamientos, los pensamientos no pueden ser 
palabras).» 

Nuestro enfoque consistirâ en adoptar los fundamentos de la lôgica proposicional 
(una semântica composicional declarativa que es independiente del contexto y no am- 
bigua) y constmir una lôgica mâs expresiva basada en dichos fundamentos, tomando pres- 
tadas de los lenguajes naturales las ideas acerca de la representacion, al mismo tiempo 
que evitando sus inconvenientes. Cuando observamos la sintaxis del lenguaje natural, 
los elementos mâs obvios son los nombres y las sentencias nominales que se refieren a 
los objetos (casillas, hoyos, wumpus) y los verbos y las sentencias verbales que se re¬ 
fieren a las relaciones entre los objetos (en la casilla se percibe una brisa, la casilla es 
adyacente a, el agente lanza una flécha). Algunas de estas relaciones son funciones (re¬ 
laciones en las que dada una «entrada» se obtiene un solo «valor»). Es fâcil empezar a 
listar ejemplos de objetos, relaciones y funciones: 

• Objetos: gente, casas, nümeros, teorias, Ronald McDonald, colores, partidos de 
béisbol, guerras, siglos... 



274 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


PROPIEDADES 


COMPROMISE) 

0NT0LÔGIC0 


LÔGICA TEMPORAL 


LÔGICA DE ORDEN 
SUPERIOR 


• Relaciones: éstas pueden ser relaciones unitarias, o propiedades, como ser de co- 
lor rojo, ser redondo, ser ficticio, ser un nümero primo, ser multihistoriado..., o 
relaciones «-arias mas generales, como ser hermano de, ser mas grande que, estar 
dentro de, formar parte de, tener color, ocurrir después de, ser dueno de uno mis- 
mo, o interponerse entre... 

• Funciones: el padre de, el mejor amigo de, el tercer turno, uno mayor que, el co- 
mienzo de... 

Efectivamente, se puede pensar en casi cualquier aserciôn como una referencia a obje- 
tos y propiedades o relaciones. Como los siguientes ejemplos: 

• «Uno sumado a dos es igual a très.» 

Objetos: uno, dos, très, uno sumado a dos; Relaciones: es igual a; Funciones: su¬ 
mado a. («Uno sumado a dos» es el nombre de un objeto que se obtiene aplican- 
do la funciôn «sumado a» a los objetos «uno» y «dos». Hay otro nombre para este 
objeto.) 

• «Las casillas que rodean al wumpus son pestilentes.» 

Objetos: wumpus, casillas; Propiedad: pestilente; Relacion: rodear a. 

• «El malvado rey Juan gobernô Inglaterra en 1200.» 

Objetos: Juan, Inglaterra, 1200; Relacion: gobernar; Propiedades: malvado, rey. 

El lenguaje de la lôgica de primer orden, cuya sintaxis y semântica definiremos en 
la siguiente secciôn, esta construido sobre objetos y relaciones. Precisamente por este 
motivo ha sido tan importante para las Matemâticas, la Filosofia y la inteligencia ar- 
tificial (y en efecto, en el dia a dia de la existencia humana) porque se puede pensar 
en ello de forma utilitaria como en el tratamiento con objetos y de las relaciones en¬ 
tre éstos. La lôgica de primer orden también puede expresar hechos acerca de algu- 
nos o todos los objetos de un universo de discurso. Esto nos permite representar leyes 
generales o réglas, taies como el enunciado «Las casillas que rodean al wumpus son 
pestilentes». 

La principal diferencia entre la lôgica proposicional y la de primer orden se apo- 
ya en el compromiso ontolôgico realizado por cada lenguaje (es decir, lo que asume 
cada uno acerca de la naturaleza de la realidad). Por ejemplo, la lôgica proposicio¬ 
nal asume que hay hechos que suceden o no suceden en el mundo. Cada hecho pue¬ 
de estar en uno de los dos estados: verdadero o falso 2 . La lôgica de primer orden asume 
mucho mas, a saber, que el mundo se compone de objetos con ciertas relaciones en¬ 
tre ellos que suceden o no suceden. Las lôgicas de propôsito especffico aün hacen com- 
promisos ontolôgicos mas alla; por ejemplo, la lôgica temporal asume que los hechos 
suceden en tiempos concretos y que esos tiempos (que pueden ser instantes o inter- 
valos) estân ordenados. De esta manera, las lôgicas de propôsito especffico dan a cier- 
tos tipos de objetos (y a los axiomas acerca de ellos) un estatus de «primera clase» 
dentro de la lôgica, mas que simplemente definiéndolos en la base de conocimiento. 
La lôgica de orden superior ve las relaciones y funciones que se utilizan en la lôgi- 


2 A diferencia de los hechos en la lôgica difusa, que tienen un grado de verdad entre 0 y 1. Por ejemplo, la 
sentencia «Vietnam es una gran ciudad» podria ser verdadera solo con un grado 0,6 en nuestro mundo. 
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El lenguaje del pensamiento 

Los fïlôsofos y los psicôlogos han reflexionado profundamente sobre cômo representan el conocimiento 
los seres humanos y otros animales. Esta claro que la evoluciôn del lenguaje natural ha jugado un pa- 
pel importante en el desarrollo de esta habilidad en los seres humanos. Por otro lado, muchas evidencias 
en la Psicologia sugieren que los seres humanos no utilizan el lenguaje de forma directa en sus re- 
presentaciones internas. Por ejemplo /eual de las dos siguientes frases formaba el inicio de la Sec- 
ciôn 8.1? 

«En esta seccion, discutiremos acerca de la naturaleza de los lenguajes de representacion...» 

«Esta seccion cubre el tema de los lenguajes de representacion del conocimiento...» 

Wanner (1974) encontre que los sujetos hacian la eleccion acertada en los tests a un nivel casual (cer- 
ca del 50 por ciento de las veces) pero que recordaban el contenido de lo que habian leido con un 90 
por ciento de précision. Esto sugiere que la gente procesa las palabras para formar algün tipo de re¬ 
presentacion no verbal, lo que llamamos memoria. 

El mecanismo concreto mediante el cual el lenguaje permite la representacion y modela las 
ideas en los seres humanos sigue siendo una incognita fascinante. La famosa hipotesis de Sapir- 
Whorf sostiene que el lenguaje que hablamos influye profundamente en la manera en que pen- 
samos y tomamos decisiones, en concreto, estableciendo las estructuras de catégories con las que 
separamos el mundo en diferentes agrupaciones de objetos. Whorf (1956) sostuvo que los esqui- 
males tenian muchas palabras para la nieve, as! que tenian una experiencia de la nieve diferente 
de las personas que hablaban otros idiomas. Algunos lingüistas no estân de acuerdo con el fun- 
damento factual de esta afirmacion (Pullum (1991) argumenta que el Inuit, el Yupik, y otros len¬ 
guajes similares parece que tienen un numéro parecido de palabras que el inglés para los conceptos 
relacionados con la nieve) mientras que otros apoyan dicha afirmacion (Fortescue, 1984). Pare¬ 
ce perfectamente comprensible que las poblaciones que tienen una familiaridad mayor con algu¬ 
nos aspectos del mundo desarrollan un vocabulario mucho mas detallado en dichos temas, por 
ejemplo, los entomologos dividen lo que muchos de nosotros llamamos simplemente escaraba- 
jos en cientos de miles de especies y ademâs estân personalmente familiarizados con muchas de 
ellas. (El biologo evolucionista J. B. S. Haldane una vez se quejo de «Una aficion desmesurada 
a los escarabajos» por parte del Creador.) Mas aün, los esquiadores expertos tienen muchos tér- 
minos para la nieve (en polvo, sopa de pescado, puré de patatas, cruda, mafz, cemento, pasta, azü- 
car, asfalto, pana, pelusa, etcétera) que representan diferencias que a los profanos no nos son 
familiares. Lo que no esta claro es la direccion de la causalidad (/.los esquiadores se dan cuenta 
de las diferencias solo por aprender las palabras, o las diferencias surgen de la experiencia indi- 
vidual y llegan a emparejarse con las étiquetas que se estân utilizando en el grupo?) Esta cues- 
tion es especialmente importante en el estudio del desarrollo infantil. Hasta ahora disponemos de 
poco entendimiento acerca del grado en el cual el aprendizaje del lenguaje y el razonamiento es¬ 
tân entrelazados. Por ejemplo, / el conocimiento del nombre de un concepto, como licenciado, hace 
que nos sea mâs fâcil construir y razonar acerca de conceptos mâs complejos que engloban a di- 
cho nombre, como licenciado idôneol 
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ca de primer orden como objetos en si mismos. Esto nos permite hacer aserciones acer- 
ca de todas las relaciones, por ejemplo, uno podrfa desear définir lo que significa que 
una relaciôn sea transitiva. A diferencia de las logicas de propôsito especlfico, la 16- 
gica de orden superior es estrictamente mas expresiva que la logica de primer orden, 
en el sentido de que algunas sentencias de la logica de orden superior no se pueden 
expresar mediante un nümero finito de sentencias de la logica de primer orden. 

Una logica también se puede caracterizar por sus compromisos epistemolôgicos 
(los posibles estados del conocimiento respecto a cada hecho que la logica permite). 
Tanto en la logica proposicional como en la de primer orden, una sentencia représenta 
un hecho y el agente o bien créé que la sentencia es verdadera, o créé que la senten¬ 
cia es falsa, o no tiene ninguna opinion. Por lo tanto, estas logicas tienen très estados 
posibles de conocimiento al considérai - cualquier sentencia. Por otro lado, los siste- 
mas que utilizan la teoria de las probabilidades pueden tener un grado de creencia, 
que va de cero (no se créé en absoluto) a uno (se tiene creencia total) 3 . Por ejemplo, 
un agente del mundo de wumpus que utilice las probabilidades podrfa creer que el 
wumpus se encuentra en la casilla [1,3] con una probabilidad de 0,75. En la Figura 
8.1 se resumen los compromisos ontologicos y epistemolôgicos de cinco logicas dis¬ 
tintas. 

En la siguiente secciôn nos meteremos en los detalles de la logica de primer orden. 
Al igual que un estudiante de Ffsica necesita familiarizarse con las Matemâticas, un es- 
tudiante de IA debe desarrollar sus capacidades para trabajar con la notaciôn logica. Por 
otro lado, no es tan importante conseguir una preocupaciôn desmesurada sobre las es- 
pecificaciones de la notaciôn logica (al fin y al cabo, hay docenas de versiones distin¬ 
tas). Los conceptos principales que hay que tener en cuenta son como el lenguaje nos 
facilita una representaciôn précisa y como su semântica nos permite realizar procedi- 
mientos sôlidos de razonamiento. 


Lenguaje 

Compromiso ontolôgico 
(lo que sucede en el mundo) 

Compromiso epistemolôgico 
(lo que el agente créé acerca 
de los hechos) 

Logica proposicional 

Hechos 

Verdadero/falso/desconocido 

Logica de primer orden 

Hechos, objetos, relaciones 

Verdadero/falso/desconocido 

Logica temporal 

Hechos, objetos, relaciones, 
tiempos 

Verdadero/falso/desconocido 

Teoria de las probabilidades 

Hechos 

Grado de creencia £ [0, 1 ] 

Logica difusa 

Hechos con un grado de verdad 
£ [0, 1] 

Valor del intervalo conocido 

Figura 8.1 Lenguajes formales y sus compromisos ontologicos y epistemolôgicos. 


3 Es importante no confundir el grado de creencia de la teoria de probabilidades con el grado de verdad de 
la logica difusa. Realmente, algunos sistemas difusos permiten una incertidumbre (un grado de creencia) acer- 
ca de los grados de verdad. 
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8.2 Sintaxis y semântica de la logica 
de primer orden 


Comenzamos esta secciôn especificando de forma mas précisa la forma en la que los mun- 
dos posibles en la logica de primer orden reflejan el compromiso ontolôgico respecto a 
los objetos y las relaciones. Enfonces introducimos los diferentes elementos del lenguaje, 
explicando su semântica a medida que avanzamos. 


Modelos en logica de primer orden 

Recuerde del Capitulo 7 que los modelos en un lenguaje lôgico son las estructuras for- 
males que establecen los mundos posibles que se tienen en cuenta. Los modelos de la 
logica proposicional son solo conjuntos de valores de verdad para los simbolos propo- 
sicionales. Los modelos de la logica de primer orden son mas interesantes. Primero, ;és- 
dominio tos contienen a los objetos! El dominio de un modelo es el conjunto de objetos que 

contiene; a estos objetos a veces se les denomina elementos del dominio. La Ligura 8.2 
dominio muestra un modelo con cinco objetos: Ricardo Corazon de Leon, Rey de Inglaterra de 

1189 a 1199; su hermano mas joven, el malvado Rey Juan, quien reino de 1199 a 1215; 
las piemas izquierda de Ricardo y Juan; y una corona. 

Los objetos en el modelo pueden estar relacionados de diversas formas. En la figu¬ 
ra, Ricardo y Juan son hermanos. Hablando formalmente, una relaciôn es solo un con- 
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junto de tuplas de objetos que estân relacionados. (Una tupla es una colecciôn de obje- 
tos colocados en un orden fijo que se escriben entre paréntesis angulares.) De esta ma- 
nera, la relacion de hermandad en este modelo es el conjunto 

{(Ricardo Corazon de Leon, Rey Juan), (Rey Juan, Ricardo Corazon de Leon)} (8.1) 

(Aquf hemos nombrado los objetos en espanol, pero se puede, si uno lo desea, sustituir 
mentalmente los nombres por las imâgenes.) La corona esta colocada sobre la cabeza 
del Rey Juan, asf que la relacion «sobre la cabeza» contiene solo una tupla, (Corona, Rey 
Juan). Las relaciones «hermano» y «sobre la cabeza» son relaciones binarias, es decir, 
relacionan parejas de objetos. El modelo también contiene relaciones unitarias, o pro- 
piedades: la propiedad «ser persona» es verdadera tanto para Ricardo como para Juan; 
la propiedad «ser rey» es verdadera solo para Juan (presumiblemente porque Ricardo 
esta muerto en este instante); y la propiedad «ser una corona» solo es verdadera para la 
corona. 

Hay ciertos tipos de relaciones que es mejor que se consideren como funciones; en 
estas relaciones un objeto dado debe relacionarse exactamente con otro objeto. Por 
ejemplo, cada persona tiene una piema izquierda, entonces el modelo tiene la funcion 
unitaria «pierna izquierda» con las siguientes aplicaciones: 

(Ricardo Corazon de Leon) —> piema izquierda de Ricardo 

(Rey Juan) —» pierna izquierda de Juan 

Hablando de forma estricta, los modelos en la logica de primer orden requieren funciones 
totales, es decir, debe haber un valor para cada tupla de entrada. Asf, la corona debe te- 
ner una pierna izquierda y por lo tanto, también cada una de las piemas izquierdas. Hay 
una solucion técnica para este problema inoportuno, incluyendo un objeto «invisible» 
adicional, que es la piema izquierda de cada cosa que no tiene pierna izquierda, inclu¬ 
sive ella misma. Afortunadamente, con tal de que uno no haga aserciones acerca de pier- 
nas izquierdas de cosas que no tienen piernas izquierdas, estos tecnicismos dejan de tener 
importancia. 


Sfmbolos e interpretaciones 

Ahora volvemos a la sintaxis del lenguaje. El lector impaciente puede obtener una des- 
cripciôn compléta de la gramâtica formai de la logica de primer orden en la Figura 8.3. 

Los elementos sintâcticos bâsicos de la logica de primer orden son los sfmbolos que 
representan los objetos, las relaciones y las funciones. Por consiguiente, los sfmbolos se 
agrupan en très tipos: sfmbolos de constante, que representan objetos; sfmbolos de pre- 
dicado, que representan relaciones; y sfmbolos de funcion, que representan funciones. 
Adoptamos la convencion de que estos sfmbolos comiencen en letra mayüscula. Por ejem¬ 
plo, podrfamos utilizar los sfmbolos de constante Ricardo y Juair, los sfmbolos de pre- 
dicado Hermano, SobreCabeza, Persona, Rey y Corona', y el sfmbolo de funcion 
Piernalzquierda. Al igual que con los sfmbolos proposicionales, la seleccion de los nom¬ 
bres dépende enteramente del usuario. Cada sfmbolo de predicado y de funcion tiene una 
aridad que establece su nümero de argumentos. 
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INTERPRETACIÔN 


INTERPRETACIÔN 

DESEADA 


Sentencia 

—» 

SentenciaAtômica 


1 

(Sentencia Conectiva Sentencia) 


1 

Cuantificador Variable... Sentencia 


1 

-i ,Sentencia 

SentenciaAtômica 

- 

Predicado(Término ...) | Término = Término 

Término 

-» 

Funciôn(Término...) 


| 

Constante 


1 

Variable 

Conectiva 

-> 

=> | A | v | <=> 

Cuantificador 

-» 

V | 3 

Constante 

-» 

A | X t | Juan | • 

Variable 

-» 

a | x | 5 | 

Predicaclo 

-> 

AntesDe \ TieneColor \ EstâLLoviendo | • 

Funciôn 

-» 

Madré \ Piernalzquierda \ ■ ■ ■ 


Figura 8.3 La sintaxis de la lôgica de primer orden con igualdad, espicificada en BNF. (Mire la 
pagina 984 si no estas familiarizado con esta notaciôn.) La sintaxis es estricta con el tema de los 
paréntesis; los comentarios acerca de los paréntesis y la precedencia de los operadores de la pagi¬ 
na 230 se aplica de la misma forma a la lôgica de primer orden. 


La semântica debe relacionar las sentencias con los modelos para determinar su va- 
lor de verdad. Para que esto ocurra, necesitamos de una interpretaciôn que especifique 
exactamente qué objetos, relaciones y funciones son referenciados mediante simbolos 
de constante, de predicados y de funciôn, respectivamente. Una interpretaciôn posible 
para nuestro ejemplo (a la que llamaremos interpretaciôn deseada) podria ser la si- 
guiente: 

• Ricardo se refiere a Ricardo Corazôn de Leon y Juan se refiere al malvado Rey 
Juan. 

• Hermano se refiere a la relaciôn de hermandad, es decir, al conjunto de tuplas de 
objetos que se muestran en la Ecuaciôn (8.1); SobreCabeza se refiere a la relaciôn 
«sobre la cabeza» que sucede entre la corona y el Rey Juan; Persona, Rey y Co¬ 
ron a se refieren a los conjuntos de objetos que son personas, reyes y coronas. 

• Piernalzquierda se refiere a la funciôn «pierna izquierda», es decir, la aplicaciôn 
que se muestra en la Ecuaciôn (8.2). 

Hay muchas otras interpretaciones posibles que se relacionan con estos simbolos para 
este modelo en concreto. Por ejemplo, una interpretaciôn podria relacionar Ricardo con 
la corona y Juan con la pierna izquierda del Rey Juan. Hay cinco objetos, por lo tanto 
hay 25 interpretaciones posibles solo para los simbolos de constante Ricardo y Juan. Fi- 
jese en que no todos los objetos necesitan un nombre (por ejemplo, la interpretaciôn de¬ 
seada no nombra la corona o las piemas). También es posible que un objeto tenga varios 
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nombres; hay una interpretaciôn en la que tanto Ricardo como Juan se refieren a la co- 
rona. Si encuentra que le confunde esta posibilidad recuerde que en la lôgica proposi- 
cional es totalmente posible tener un modelo en el que Nublado y Soleado sean ambos 
verdaderos; la tarea de la base de conocimiento consiste justamente en excluir lo que es 
inconsistente con nuestro conocimiento. 

El valor de verdad de cualquier sentencia se détermina por un modelo y por una in¬ 
terpretacion de los sfmbolos de la sentencia. Por lo tanto, la implicacion, la validez, etcé- 
tera, se determinan con base en todos los modelos posibles y todas las interpretaciones 
posibles. Es importante fijarse en que el nümero de elementos del dominio en cada mo¬ 
delo puede ser infinito, por ejemplo, los elementos del dominio pueden ser nümeros en¬ 
teras o reales. Por eso, el nümero de modelos posibles es infinito, igual que el nümero de 
interpretaciones. La comprobaciôn de la implicacion mediante la enumeraciôn de todos 
los modelos posibles, que funcionaba en la lôgica proposicional, no es una opciôn acerta- 
da para la lôgica de primer orden. Aunque el nümero de objetos esté restringido, el nümero 
de combinaciones puede ser enorme. Con los sfmbolos de nuestro ejemplo, hay aproxi- 
madamente 10 25 combinaciones para un dominio de cinco objetos. (Véase Ejercicio 8.5.) 


Términos 

término Un término es una expresiôn lôgica que se refiere a un objeto. Por lo tanto, los sfmbo¬ 

los de constante son términos, pero no siempre es conveniente tener un sfmbolo distin- 
to para cada objeto. Por ejemplo, en espanol podrfamos utilizar la expresiôn «la pierna 
izquierda del Rey Juan», y séria mucho mejor que darle un nombre a su pierna. Para esto 
sirven los sfmbolos de funciôn: en vez de utilizar un sfmbolo de constante utilizamos 
PiernaIzquierda(Juan). En el caso general, un término complejo esta formado por un sfm¬ 
bolo de funciôn seguido de una lista de términos entre paréntesis que son los argumen¬ 
tas del sfmbolo de funciôn. Es importante recordar que un término complejo tan solo es 
un tipo de nombre algo complicado. No es una «llamada a una subrutina» que «devuel- 
ve un valor». No hay una subrutina Piernalzquierda que tome una persona como entra- 
da y devuelva una pierna. Podemos razonar acerca de piernas izquierdas (por ejemplo 
haciendo constar que cada uno tiene una pierna y enfonces deducir que Juan debe tener 
una) sin tener que proporcionar una definiciôn de Piernalzquierda. Esto es algo que no 
se puede hacer mediante subrutinas en los lenguajes de programaciôn 4 . 

La semântica formai de los términos es sencilla. Considéra un término f(t l ..., t n ). El 
sfmbolo de funciôn/se refiere a alguna funciôn del modelo (Ilamémosla F); los térmi¬ 
nos argumento se refieren a objetos del dominio (llamémoslos d l ..., c/J; y el término en 
su globalidad se refiere al objeto que es el valor obtenido de aplicar la funciôn F a los 


4 Las expresiones-A proporcionan una notaciôn ütil mediante la cual se construyen nuevos sfmbolos de fun¬ 
ciôn «al vuelo». Por ejemplo, la funciôn que eleva al cuadrado su argumento se puede escribir como (Àx x 
X x) y se puede aplicar a argumentas del misrno modo que cualquier otro sfmbolo de funciôn. Una expre- 
siôn-À también se puede définir y utilizar como un sfmbolo de predicado. (Véase Capftulo 22.) El operador 
lambda del Lisp juega exactamente el misrno papel. Ffjese en que el uso de À de este modo no aumenta el 
poder expresivo de la lôgica de primer orden; porque cualquier sentencia que tenga una expresiôn-À se pue¬ 
de rescribir «enchufando» sus argumentos para obtener una sentencia équivalente. 
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objetos d x ..., d n . Por ejemplo, supongamos que el simbolo de funcion Piernahquierda 
se refiere a la funcion que se muestra en la Ecuaciôn (8.2) y que Juan se refiere al Rey 
Juan, entonces, PiernaIzquierda(Juan ) se refiere a la pierna izquierda del Rey Juan. De 
esta manera, la interpretaciôn establece el referente de cada término. 



Sentencias atômicas 

Ahora que ya tenemos tanto los términos para referimos a los objetos, como los simbo- 
los de predicado para referirnos a las relaciones, podemos juntarlos para construir sen¬ 
tencias atômicas que representan hechos. Una sentencia atômica esta compuesta por un 
simbolo de predicado seguido de una lista de términos entre paréntesis: 

Hermano(Ricardo, Juan ) 

Esto représenta, bajo la interpretaciôn deseada que hemos dado antes, que Ricardo Co- 
razôn de Leon es el hermano del Rey Juan 5 . Las sentencias atômicas pueden tener tér¬ 
minos complejos. De este modo, 

CasadoCon(Padre(Ricardo ), Madre{Juan)) 

représenta que el padre de Ricardo Corazôn de Leon esta casado con la madré del Rey 
Juan (otra vez, bajo la adecuada interpretaciôn). 

Una sentencia atômica es verdadera en un modelo dado, y bajo una interpretaciôn 
dada, si la relaciôn referenciada por el simbolo de predicado suce de entre los objetos 
referenciados por los argumentos. 


Sentencias compuestas 

Podemos utilizar las conectivas lôgicas para construir sentencias mas complejas, igual 
que en la lôgica proposicional. La semântica de las sentencias formadas con las conec¬ 
tivas lôgicas es idéntica a la de la lôgica proposicional. Aqui hay cuatro sentencias que 
son verdaderas en el modelo de la Ligura 8.2, bajo la interpretaciôn deseada: 

-iJfermano(PiernaJzquierda(Ricardo), Juan ) 

HermanolRicardo, Juan) a HermanolJuan, Ricardo) 

Rey(Ricardo) v Rey(Juan) 

-i Rey(Ricardo) => Rey(Juan) 

Cuantificadores 

Una vez tenemos una lôgica que nos permite representar objetos, es muy natural querer 
expresar las propiedades de colecciones enteras de objetos en vez de enumerar los ob- 
cuantificadores jetos por su nombre. Los cuantificadores nos permiten hacer esto. La lôgica de primer 
orden contiene dos cuantificadores estândar, denominados universal y existencial. 


5 Por lo general utilizaremos la convenciôn de ordenacion de los argumentos P(x, y), que se interpréta como 
«x es P de y». 
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VARIABLE 


TÉRMINO BASE 


INTERPRETACIÔN 
AM PLI AD A 


Cuantificador universal (V) 

Retomemos la dificultad que temamos en el Capftulo 7 con la expresion de las réglas 
generales en la lôgica proposicional. Las réglas como «Las casillas vecinas al wumpus 
son apestosas» y «Todos los reyes son personas» son el pan de cada dia de la lôgica de 
primer orden. En la Secciôn 8.3 trataremos con la primera de éstas. Respecto a la segunda 
régla, «Todos los reyes son personas», se escribe en la lôgica de primer orden 

Vx Rey(x) => Persona(x) 

generalmente V se pronuncia «Para todo...». (Recuerda que la A boca abajo représen¬ 
ta «todo».) Asi, la sentencia dice, «Para todo x, si x es un rey, entonces x es una perso- 
na». Al simbolo x se le llama variable. Por convenio, las variables se escriben en 
minüsculas. Una variable es un término en si mismo, y como tal, también puede utili- 
zarse como el argumenta de una funciôn, por ejemplo, Pieniahquierda(x). Un término 
que no tiene variables se denomina término base. 

De forma intuitiva, la sentencia Vx P, donde P es una expresion lôgica, dice que P 
es verdadera para cada objeto x. Siendo mas precisos, Vx P es verdadera en un modelo 
dado bajo una interpretaciôn dada, si P es verdadera para todas las interpretaciones am- 
pliadas, donde cada interpretaciôn ampliada especifica un elemento del dominio al que 
se refiere x. 

Esto suena algo complicado, pero tan solo es una manera cautelosa de définir el sen- 
tido intuitivo de la cuantificaciôn universal. Considéré el modelo que se muestra en la 
Figura 8.2 y la interpretaciôn deseada que va con él. Podemos ampliar la interpretaciôn 
de cinco maneras: 


x —» Ricardo Corazôn de Leon, 
x —» Rey Juan, 

x —> pierna izquierda de Ricardo, 
x —> pierna izquierda de Juan, 
x —» la corona. 

La sentencia cuantificada universalmente Vx Rey(x ) => Persona(x ) es verdadera bajo la 
interpretaciôn inicial si la sentencia Rey{x) => Persona{x) es verdadera en cada una de 
las interpretaciones ampliadas. Es decir, la sentencia cuantificada universalmente es équi¬ 
valente a afirmar las cinco sentencias siguientes: 

Ricardo Corazôn de Leon es un rey => Ricardo Corazôn de Leon es una persona. 

Rey Juan es un rey => Rey Juan es una persona. 

La pierna izquierda de Ricardo es un rey => La pierna izquierda de Ricardo es una persona. 
La pierna izquierda de Juan es un rey => La piema izquierda de Juan es una persona. 
La corona es un rey => La corona es una persona. 

Vamos a observar cuidadosamente este conjunto de aserciones. Ya que en nuestro mo¬ 
delo el Rey Juan es el ünico rey, la segunda sentencia aserta que él es una persona, tal 
como esperamos. Pero, /t|ué ocurre con las otras cuatro sentencias, donde parece que 
incluso se reivindica acerca de piernas y coronas? / ; Eso forma parte del sentido que tie- 
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ne «Todos los reyes son personas»? De hecho, las otras cuatro aserciones son verda- 
deras en el modelo, pero no hacen en absoluto ninguna reivindicacion acerca de la na- 
turaleza de persona de las piernas, coronas, o en efecto de Ricardo. Esto es porque 
ninguno de estos objetos es un rey. Mirando la tabla de verdad de la conectiva => (Fi¬ 
gura 7.8) vemos que la implicacion es verdadera siempre que su premisa sea falsa (in- 
dependientemente del valor de verdad de la conclusion). Asi que, al afirmar una 
sentencia cuantificada universalmente, que es équivalente a afirmar la lista total de im- 
plicaciones individuales, acabamos afirmando la conclusion de la régla solo para aque- 
llos objetos para los que la premisa es verdadera y no decimos nada acerca de aquellos 
individuos para los que la premisa es falsa. De este modo, las entradas para la tabla de 
verdad de la conectiva => son perfectas para escribir réglas generales mediante cuan- 
tificadores universales. 

Un error comün, hecho frecuentemente aün por los lectores mas diligentes que han 
leido este pârrafo varias veces, es utilizar la conjunciôn en vez de la implicacion. La sen¬ 
tencia 


Vx Rey(x) a Persona(x ) 


séria équivalente a afirmar 

Ricardo Corazon de Leon es un rey a Ricardo Corazon de Leon es una persona 
Rey Juan es un rey a Rey Juan es una persona 

La pierna izquierda de Ricardo es un rey a La pierna izquierda de Ricardo es una persona 
etcétera. Obviamente, esto no plasma lo que queremos expresar. 

Cuantiflcaciôn existencial (3) 

La cuantificacion universal construye enunciados acerca de todos los objetos. De forma 
similar, utilizando un cuantificador existencial, podemos construir enunciados acerca de 
algûn objeto del universo de discurso sin nombrarlo. Para decir, por ejemplo, que el Rey 
Juan tiene una corona sobre su cabeza, escribimos 

3x Corona(x ) a SobreCabezaix, Juan) 

3x se pronuncia «Existe un x tal que...» o «Para algün x...». 

De forma intuitiva, la sentencia 3x P dice que P es verdadera al menos para un ob¬ 
jeto x. Siendo mas precisos, 3x P es verdadera en un modelo dado bajo una interpreta- 
cion dada si P es verdadera al menos en una interpretacion ampliada que asigna a x un 
elemento del dominio. Para nuestro ejemplo, esto significa que al menos una de las sen- 
tencias siguientes debe ser verdadera: 

Ricardo Corazon de Leon es una corona a Ricardo Corazon de Leon esta sobre la ca¬ 
beza de Juan; 

Rey Juan es una corona a Rey Juan esta sobre la cabeza de Juan; 

La pierna izquierda de Ricardo es una corona a La piema izquierda de Ricardo esta so¬ 
bre la cabeza de Juan; 
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La pierna izquierda de Juan es una corona a La pierna izquierda de Juan esta sobre la 
cabeza de Juan; 

La corona es una corona a La corona esta sobre la cabeza de Juan. 

La quinta asercion es verdadera en nuestro modelo, por lo que la sentencia original cuan- 
tificada existencialmente es verdadera en el modelo. Fljese en que, segün nuestra defi- 
niciôn, la sentencia también séria verdadera en un modelo en el que el Rey Juan llevara 
dos coronas. Esto es totalmente consistente con la sentencia inicial «El Rey Juan tiene 
una corona sobre su cabeza» 6 . 

Igual que el utilizar con el cuantificador V la conectiva => parece ser lo natural, a 
es la conectiva natural para ser utilizada con el cuantificador 3. Utilizar a como la co¬ 
nectiva principal con V nos llevô a un enunciado demasiado fuerte en el ejemplo de la 
seccion anterior; y en efecto, utilizar => con 3 nos lleva a un enunciado demasiado dé- 
bil. Considéré la siguiente sentencia: 

3x Corona{x ) => SobreCabeza(x, Juan) 

Superficialmente, esto podria parecer una interpretaciôn razonable de nuestra sentencia. 
Al aplicar la semântica vemos que la sentencia dice que al menos una de las aserciones 
siguientes es verdadera: 

Ricardo Corazôn de Leon es una corona => Ricardo Corazôn de Leon esta sobre la ca¬ 
beza de Juan; 

Rey Juan es una corona => Rey Juan esta sobre la cabeza de Juan; 

La pierna izquierda de Ricardo es una corona => La piema izquierda de Ricardo esta so¬ 
bre la cabeza de Juan; 

etcétera. Ahora una implication es verdadera si son verdaderas la premisa y la conclu¬ 
sion, o si su premisa esfalsa. Entonces, si Ricardo Corazôn de Leon no es una corona, 
enfonces la primera asercion es verdadera y se satisface el existencial. Asi que, una im¬ 
plicacion cuantificada existencialmente es verdadera en cualquier modelo que conten- 
ga un objeto para el que la premisa de la implicacion sea falsa; de aqui que este tipo de 
sentencias al fin y al cabo no digan mucho. 


Cuantificadores anidados 

A menudo queremos expresar sentencias mas complejas utilizando mültiples cuantifi- 
cadores. El caso mas sencillo es donde los cuantificadores son del mismo tipo. Por ejem¬ 
plo, «Los camaradas son hermanos» se puede escribir como 

Vx Vy Hermanoix, y) => Camarada(x, y) 


6 Hay una variante del cuantificador existencial, escrito por lo general 3 1 o 3 !, que significa «Existe exacta- 
mente uno.» El mismo significado se puede expresar utilizando sentencias de igualdad, tal como mostrare- 
mos en esta misma seccion. 
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Los cuantificadores consecutivos del mismo tipo se pueden escribir como un solo cuan- 
tificador con sendas variables. Por ejemplo, para decir que la relacion de hermandad es 
una relacion simétrica podemos escribir 

Vx, y Camaradaix, y) => Camaradaiy, x) 

En otros casos tenemos combinaciones. «Todo el mundo ama a alguien» significa que 
para todas las personas, hay alguien que esa persona ama: 

Vx 3y Ama{x, y) 

Por otro lado, para decir «Hay alguien que es amado por todos», escribimos 

3y Vx Ama(x, y) 

Por lo tanto, el orden de los cuantificadores es muy importante. Esta mas claro si intro- 
ducimos paréntesis. Vx (3y Ama(x, y)) dice que todo el mundo tiene una propiedad en 
particular, en concreto, la propiedad de amar a alguien. Por otro lado, 3y (Vy Ama(x, y)) 
dice que alguien en el mundo tiene una propiedad particular, en concreto, la propiedad 
de ser amado por todos. 

Puede aparecer alguna confusion cuando dos cuantificadores se utilizan con el mis¬ 
mo identifieador de variable. Considéré la sentencia 

Vx [ Corona(x) v (3x Hermano(Ricardo, x))] 

Aqui la x de HermanoiRicardo , x) esta cuantificada existencialmente. La régla es que 
la variable pertenece al cuantificador mas anidado que la mencione; enfonces no sera el 
sujeto de cualquier otro cuantificador 7 . Otra forma de pensar en esto es: 3x Herma- 
no(Ricardo, x) es una sentencia acerca de Ricardo (que él tiene un hermano), no acerca 
de x; asf que poner Vx fuera no tiene ningün efecto. Se podria perfectamente haber es- 
crito 3z Hermano(Ricardo, z ). Y como esto puede ser una fuente de confusion, siempre 
utilizaremos variables diferentes. 


Conexiones entre V y 3 

Los dos cuantificadores realmente estân mtimamente conectados el uno al otro, mediante 
la negacion. Afirmar que a todo el mundo no le gustan las pastinacas es lo mismo que 
afirmar que no existe alguien a quien le gusten, y viceversa: 

Vx -*Gusta(x, Pastinacas) es équivalente a -dx Gusta(x, Pastinacas). 


7 Es el potencial para la inferencia entre cuantificadores que utilizan el mismo identificador de variable lo 
que motiva el mecanismo barroco de las interpretaciones ampliadas en la semântica de las sentencias cuan- 
tificadas. El enfoque intuitivo mâs obvio de sustituir los objetos de cada ocurrencia de x falla en nuestro ejem¬ 
plo porque la .y de Hermano(Ricardo, x) séria «capturada» por la sustitucion. Las interpretaciones ampliadas 
manejan este tenta de forma correcta porque la asignacion para .y del cuantificador mâs interiorizado estro- 
pea a los cuantificadores extemos. 
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SÎMBOLODE 

IGUALDAD 


Podemos dar un paso mas alla: «A todo el mundo le gusta el helado» signifie a que no 
hay nadie a quien no le guste el helado: 

Vx Gusta(x, Helado ) es équivalente a -dx -*Gusta(x, Helado). 

Como V realmente es una conjuncion sobre el universo de objetos y 3 es una disyun- 
cion, no séria sorprendente que obedezean a las leyes de Morgan. Las leyes de Morgan 
para las sentencias cuantificadas y no cuantificadas son las siguientes: 


Vx -iP = -i3x P 
-iVx P = 3x -lP 
Vx P = -i3x -'P 
3x P = -iVx -'P 


-iPA-ig = _I (PV0 

~'(P^Q) = ->Pv-ig 

PaQ = -i (-iPv-10 
PvQ = - 10 PA -10 


De este modo, realmente no necesitamos V y 3 al mismo tiempo, igual que no necesi- 
tamos a y v al mismo tiempo. Todavia es mas importante la legibilidad que la parque - 
dad, asi que seguiremos utilizando ambos cuantificadores. 


Igualdad 

La logica de primer orden incluye un mecanismo extra para constmir sentencias atômi- 
cas, uno que no utiliza un predicado y unos términos como hemos descrito antes. En lu- 
gar de ello, podemos utilizar el simbolo de igualdad para construir enunciados 
describiendo que dos términos se refieren al mismo objeto. Por ejemplo, 

Padre{Juan) = Emique 

dice que el objeto referenciado por Padre(Juan) y el objeto referenciado por Emique son 
el mismo. Como una interpretacion especifica el referente para cualquier término, de- 
terminar el valor de verdad de una sentencia de igualdad consiste simplemente en ver 
que los referentes de los dos términos son el mismo objeto. 

El simbolo de igualdad se puede utilizar para representar hechos acerca de una fun- 
cion dada, tal como hicimos con el simbolo Padre, también se puede utilizar con la ne- 
gacion para insistir en que dos términos no son el mismo objeto. Para decir que Ricardo 
tiene al menos dos hermanos escribiriamos 

3x, y Hermano(x, Ricardo) a Hermanoiy, Ricardo) a ->(x = y) 

La sentencia 


3x, y Hermano(x, Ricardo) a Hermano(y, Ricardo) 

no tiene el significado deseado. En concreto, es verdadero en el modelo de la Figura 8.2, 
donde Ricardo tiene solo un hermano. Para verlo, considéré las interpretaciones ampliadas 
en las que x e y son asignadas al Rey Juan. La adicion de -i(x = y) excluye dichos mo- 
delos. La notacion x A y se utiliza a veces como abreviacion de -i(x = y). 
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8.3 Utilizar la logica de primer orden 


Ahora que hemos definido un lenguaje lôgico expresivo, es hora de aprender a utilizar- 
lo. La mejor forma de hacerlo es a través de ejemplos. Hemos visto algunas sentencias 
sencillas para mostrar los diversos aspectos de la sintaxis logica; en esta secciôn pro- 
dominios porcionaremos unas representaciones mas sistemâticas de algunos dominios sencillos. 

En la representaciôn del conocimiento un dominio es solo algün âmbito del mundo acer- 
ca del cual deseamos expresar algün conocimiento. 

Comenzaremos con una breve descripciôn de la interfaz Decir/Preguntar para las 
bases de conocimiento en primer orden. Enfonces veremos los dominios de las relacio- 
nes de parentesco, de los nümeros, de los conjuntos, de las listas y del mundo de wum- 
pus. La siguiente secciôn contiene un ejemplo mucho mas sustancial (sobre circuitos 
electrônicos) y en el Capitulo 10 cubriremos cada aspecto del universo de discurso. 

Aserciones y peticiones en logica de primer orden 

Las sentencias se van anadiendo a la base de conocimiento mediante Decir, igual que 
afirmaciones en la logica proposicional. Este tipo de sentencias se denominan aserciones. Por ejem¬ 

plo, podemos afirmar que Juan es un rey y que los reyes son personas mediante las si- 
guientes sentencias: 


DecirCBC, Rey {Juan)) 

DecirCBC, Vx Rey{x) => Persona{x)) 

Podemos hacer preguntas a la base de conocimiento mediante Preguntar. Por ejemplo, 

PreguntarCBC, Rey{Juan)) 

peticiones que devuelve verdadero. Las preguntas realizadas con Preguntar se denominan peti- 

ciones u objetivos (no deben confundirse con los objetivos que se utilizan para descri- 
d "" E w0 ' > bir los estados deseados por el agente). En general, cualquier peticiôn que se implica 

lôgicamente de la base de conocimiento séria respondida afirmativamente. Por ejemplo, 
dadas las dos aserciones en el pârrafo precedente, la peticiôn 

Preguntar(BC, Persona{Juan)) 

también devolveria verdadero. También podemos realizar peticiones cuantificadas, ta¬ 
ies como 


Preguntar(BC, 3x Persoita(x)). 


SUSTITUCIÔN 
LISTA DE LIGADURAS 


La respuesta a esta peticiôn podria ser verdadero, pero esto no es de ayuda ni es ame- 
no. (Es como responder a «y Mc puedes decir qué hora es?» con un «Si».) Una peticiôn 
con variables existenciales es como preguntar «Hay algün x tal qué...» y lo resolvemos 
proporcionando dicha x. La forma estândar para una respuesta de este tipo es una sus- 
tituciôn o lista de ligaduras, que es un conjunto de parejas de variable/término. En este 
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caso en particular, dadas las dos aserciones, la respuesta séria {x/Juan}. Si hay mas de 
una respuesta posible se puede devolver una lista de sustituciones. 


El dominio del parentesco 

El primer ejemplo que vamos a tratar es el dominio de las relaciones familiares, o de pa¬ 
rentesco. Este dominio incluye hechos como «Isabel es la madré de Carlos» y «Carlos 
es el padre de Guillermo», y réglas como «La abuela de uno es la madré de su padre». 

Esta claro que los objetos de nuestro dominio son personas. Tendremos dos predi- 
cados unitarios: Masculino y Femenino. Las relaciones de parentesco (de paternidad, de 
hermandad, de matrimonio, etcétera) se representarân mediante los predicados binarios: 
Padre, Hermano PoUtico, Hermano, Hermana, Nino, Hija, Hijo, Esposo, Mujer, Mari- 
do, Abuelo, Nieto, Primo, Tîa, y Tîo. Utilizaremos funciones para Madré y Padre, por- 
que todas las personas tienen exactamente uno de cada uno (al menos de acuerdo con 
las réglas de la naturaleza). 

Podemos pasar por cada funciôn y predicado, apuntando lo que sabemos en térmi- 
nos de los otros simbolos. Por ejemplo, la madré de uno es uno de los padres y es fe¬ 
menino: 


Vx, y Madre(y) = x <=> Femenino(x) a Padre(x, y). 

El marido de uno es un esposo masculino: 

Vx, y Maridoiy, x) « Masculino(y) a Esposoiy, x). 

Masculino y Femenino son categorias disjuntas: 

Vx Masculino{x) <=> ~>Femenino(x). 

Padre e hijo son relaciones inversas: 

Vx, y Padre(x, y) <=> Hijo(y, x). 

Un abuelo es el padre del padre de uno: 

Vx, y Abuelo(x, y) <=> 3z Padre(x, z) a Padre(z, y). 

Un hermano es otro hijo del padre de uno: 

Vx, y Hermano(x, y) <=> x -P y a 3z Padre(z, x) a Padre(z, y). 

Podriamos seguir con mas paginas como esta, y el Ejercicio 8.11 pide que haga justa- 
mente eso. 

axiomas Cada una de estas sentencias se puede ver como un axioma del dominio del pa¬ 

rentesco. Los axiomas se asocian por lo general con dominios puramente matemâticos 
(veremos algunos axiomas sobre nümeros en breve) pero la verdad es que se necesitan 
en todos los dominios. Los axiomas proporcionan la informacion factual esencial de la 
cual se pueden derivar conclusiones ütiles. Nuestros axiomas de parentesco también son 
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DEFINICIONES 


TEOREMAS 


definiciones; tienen la forma Vx, y P(x, y) <=> ... Los axiomas definen la funcion Ma¬ 
dré y los predicados Marido, Masculino, Padre, Abuelo y Hermano en términos de 
otros predicados. Nuestras definiciones «tocan el fondo» de un conjunto bâsico de pre¬ 
dicados ( Hijo, Esposo, y Femenino ) sobre los cuales se definen los demâs. Esta es una 
forma muy natural de desarrollar la representacion de un dominio, y es anâlogo a la for¬ 
ma en que los paquetes de software se desarrollan a partir de definiciones sucesivas de 
subrutinas, partiendo de una biblioteca de funciones primitivas. Fijese en que no hay ne- 
cesariamente un ünico conjunto de predicados primitivos; podrfamos perfectamente ha- 
ber utilizado Padre, Esposo y Masculino. En algunos dominios, tal como veremos, no 
hay un conjunto bâsico claramente identificable. 

No todas las sentencias logicas acerca de un dominio son axiomas. Algunas son teo- 
remas, es decir, son deducidas a partir de los axiomas. Por ejemplo, considéré la aser- 
cion acerca de que la relacion de hermandad es simétrica: 

Vx, y Hermano(x, y) <=> Hermano(y, x). 

/ ; Es un axioma o un teorema? De hecho, es un teorema que lôgicamente se sigue de los 
axiomas definidos para la relacion de hermandad. Si Preguntamos a la base de cono- 
cimiento sobre esta sentencia, la base devolverfa verdadero. 

Desde un punto de vista puramente lôgico, una base de conocimiento solo necesita 
contener axiomas y no necesita contener teoremas, porque los teoremas no aumentan el 
conjunto de conclusiones que se siguen de la base de conocimiento. Desde un punto de 
vista prâctico, los teoremas son esenciales para reducir el coste computacional para de- 
rivar sentencias nuevas. Sin ellos, un sistema de razonamiento tiene que empezar desde 
el principio cada vez, como si un fisico tuviera que volver a deducir las réglas del câl- 
culo con cada problema nuevo. 

No todos los axiomas son definiciones. Algunos proporcionan informaciôn mas ge¬ 
neral acerca de ciertos predicados sin tener que constituir una definicion. Por el contra¬ 
rio, algunos predicados no tienen una definicion compléta porque no sabemos lo suficiente 
para caracterizarlos totalmente. Por ejemplo, no hay una manera obvia para completar 
la sentencia: 


Vx Persona(x) <=>... 

Afortunadamente, la lôgica de primer orden nos permite hacer uso del predicado Per- 
sona sin definirlo completamente. En lugar de ello, podemos escribir especificaciones 
parciales de las propiedades que cada persona tiene y de las propiedades que hacen que 
algo sea una persona: 

Vx Persona(x) <=> ... 

Vx ... <=> Persona(x) 

Los axiomas también pueden ser «tan solo puros hechos», tal como MasculinoiJai¬ 
me) y Esposo(Jaime, Laura). Este tipo de hechos forman las descripciones de las ins- 
tancias de los problemas concretos, permitiendo asi que se responda a preguntas concretas. 
Entonces, las respuestas a estas preguntas serân los teoremas que se siguen de los axio¬ 
mas. A menudo, nos encontramos con que las respuestas esperadas no estân disponibles, 
por ejemplo, de Masculino(Jorge) y Esposo(Jorge, Laura) esperamos ser capaces de in- 
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ferir Femenino(Laura); pero esta sentencia no se sigue de los axiomas dados anterior- 
mente. Y esto es una senal de que nos hemos olvidado de algün axioma. 


Numéros, conjuntos y listas 

Los numéros son quizâs el ejemplo mas grâfico de como se puede construir una gran te- 
orfa a partir de un nücleo de axiomas diminuto. Aquf describiremos la teorfa de los nu¬ 
méros naturales, o la de los enteros no negativos. Necesitamos un predicado NumNat 
que sera verdadero para los numéros naturales; necesitamos un sfmbolo de constante, 0; 
y necesitamos un sfmbolo de funcion, 5 (sucesor). Los axiomas de Peano definen los 
nümeros naturales y la suma 8 . Los nümeros naturales se definen recursivamente: 

NumNat(O) 

V/? NumNat(n) => NumNat(S(n )) 

Es decir, 0 es un numéro natural, y para cada objeto n, si n es un nümero natural enfon¬ 
ces el 5(/?) es un nümero natural. Asf, los nümeros naturales son el 0, el 5(0), el 5(5(0)), 
etcétera. También necesitamos un axioma para restringir la funcion sucesor: 

V/7 0 * 5(77) 

V/77, 77 777 + 77 => 5(/77) 777 5(/7) 

Ahora podemos définir la adiciôn (suma) en términos de la funcion sucesor: 

V7?? NumNat(m) => +( 777 , 0) = m 

V 777,77 NumNat(m) a NumNat(n) => +(S(»?), n) = S(+(m, /?)) 

El primera de estos axiomas dice que sumar 0 a cualquier nümero natural m da el mis- 
mo 777 . Ffjese en el uso de la funcion binaria «+» en el término +( 777 , 0); en las mate- 
mâticas habituales el término estarfa escrito m + 0, utilizando la notaciôn infija. (La 
notaciôn que hemos utilizado para la lôgica de primer orden se denomina prefija.) Para 
hacer que nuestras sentencias acerca de los nümeros sean mas faciles de leer permitire- 
mos el uso de la notaciôn infija. También podemos escribir S(n) como 77 + 1, enfonces 
el segundo axioma se convierte en 

V/7?, 77 NumNatQn ) a NumNat(n) => (m + l) + n = (m + /;) + 1 

Este axioma reduce la suma a la aplicaciôn repetida de la funcion sucesor. 

El uso de la notaciôn infija es un ejemplo de sintaxis edulcorada, es decir, una am- 
pliaciôn o abreviaciôn de una sintaxis estândar que no cambia su semântica. Cualquier 
sentencia que esta edulcorada puede «des-edulcorarse» para producir una sentencia 
équivalente en la habituai lôgica de primer orden. 

Una vez tenemos la suma, es fâcil définir la multiplicaciôn como una suma repeti¬ 
da, la exponenciaciôn como una multiplicaciôn repetida, la division entera y el resto, los 


8 Los axiomas de Peano también incluyen el principio de inducciôn, que es una sentencia de lôgica segun¬ 
do orden mâs que de lôgica de primer orden. La importancia de esta diferencia se explica en el Capltulo 9. 
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numéros primos, etcétera. De este modo, la totalidad de la teoria de los numéros (in- 
cluyendo la criptografia) se puede desarrollar a partir de una constante, una funciôn, un 
predicado y cuatro axiomas. 

conjuntos El dominio de los conjuntos es tan fondamental para las matemâticas como para el 

razonamiento del sentido comün. (De hecho, es posible desarrollar la teoria de los nü- 
meros con base en la teoria de los conjuntos.) Queremos ser capaces de representar con¬ 
juntos individuales, incluyendo el conjunto vacio. Necesitamos un mecanismo para 
construir conjuntos anadiendo un elemento a un conjunto o tomando la union o la in¬ 
terseccion de dos conjuntos. Querremos saber si un elemento es un miembro de un con¬ 
junto, y ser capaces de distinguir conjuntos de objetos que no son conjuntos. 

Utilizaremos el vocabulario habituai de la teoria de conjuntos como sintaxis edul- 
corada. El conjunto vacio es una constante escrita como { }. Hay un predicado unitario, 
Conjunto, que es verdadero para los conjuntos. Los predicados binarios son x e s (x es 
un miembro del conjunto s) y 5] Ç= s 2 (el conjunto 5, es un subconjunto, no necesaria- 
mente propio, del conjunto s 2 ). Las fonciones binarias son .v, n s 2 (la interseccion de dos 
conjuntos), s, u s 2 (la union de dos conjuntos), y {x|v} (el conjunto résultante de anadir 
el elemento x al conjunto 5 ). Un conjunto posible de axiomas es el siguiente: 

1. Los ünicos conjuntos son el conjunto vacio y aquellos constmidos anadiendo 
algo a un conjunto: 

Vs Conjunto(s ) o (s = { }) v (3x, s 2 Conjunto{s 2 ) a 5 = {x|5 2 }) 

2. El conjunto vacio no tiene elementos anadidos a él, en otras palabras, no hay 
forma de descomponer un ConjuntoVacio en un conjunto mas pequeno y un ele¬ 
mento: 

-dx, 5 {x|s} = { } 

3. Anadir un elemento que ya pertenece a un conjunto no tiene ningün efecto: 

Vx, 5 x e 5 <=> s = {x|s} 

4. Los ünicos elementos de un conjunto son los que foeron anadidos a él. Expre- 
samos esto recursivamente, diciendo que x es un miembro de s si y solo si 5 es 
igual a algün conjunto .v, al que se le ha anadido un elemento y, y que y era el 
mismo elemento que x o que x es un miembro de s 2 . 

Vx, 5 x e s <=> [3y, s 2 (s = {y|s 2 } a (x — y v x e s 2 ))] 

5. Un conjunto es un subconjunto de otro conjunto si y solo si todos los miembros 
del primer conjunto son miembros del segundo conjunto: 

Vs j, s 2 Sj ^ s 2 <=> (Vx xe î, ^ xe s 2 ) 

6. Dos conjuntos son iguales si y solo si cada uno es subconjunto del otro: 

VSj, s 2 (Sj = s 2 ) O (Sj ÇîjAijÇ Sj) 

7. Un objeto pertenece a la interseccion de dos conjuntos si y solo si es miembro 
de ambos conjuntos: 

Vx, 5,, s 2 x e (sj n s 2 ) <=> (x e îjAxe s 2 ) 
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8 . Un objeto pertenece a la union de dos conjuntos si y solo si es miembro de al- 
guno de los dos: 

Vx, s j, s 2 x g (sj u s 2 ) <=> (x g s, v x g s 2 ) 

listas Las listas son muy parecidas a los conjuntos. Las diferencias son que las listas estân or- 

denadas y que el mismo elemento puede aparecer mas de una vez en una lista. Podemos 
utilizar el vocabulario del Lisp para las listas: Nil es la constante para las listas sin ele- 
mentos; Cons, Unir, Primero y Resta son funciones; y Encontrar es el predicado que hace 
en listas lo que Miembro hace en conjuntos. iLista? es un predicado que es verdadero 
solo para las listas. Como en los conjuntos, es comün el uso de sintaxis edulcoradas en 
las sentencias lôgicas que tratan sobre listas. La lista varia es [ ]. El término Cons(x, y), 
donde y es un conjunto no vario, se escribe fx| v]. El término Cons{x, Nil), (por ejemplo, 
la lista conteniendo el elemento x), se escribe [x], Una lista con varios elementos, como 
[A, B, C], se corresponde al término anidado Cons{A, Cons(B, Cons{C, Nil))). El Ejer- 
cicio 8.14 pide que escriba los axiomas para las listas. 


El mundo de wumpus 

En el Capftulo 7 se dieron algunos axiomas para el mundo de wumpus en logica propo- 
sicional. Los axiomas en logica de primer orden de esta secciôn son mucho mas preci- 
sos, capturando de forma natural exactamente lo que queremos expresar. 

Recuerde que el agente wumpus recibe un vector de percepciones con cinco ele¬ 
mentos. La sentencia en primer orden correspondiente almacenada en la base de cono- 
cimiento debe incluir tanto la percepcion como el instante de tiempo en el que ocurriô 
ésta, de otra manera el agente se confundiria acerca de cuândo vio qué cosa. Utilizare- 
mos enteros para los instantes de tiempo. Una tipica sentencia de percepcion séria 

Percepciôn([MalHedor , Brisa, Resplandor, Nada, Nada], 5) 

Aqui, Percepcion es un predicado binario y MalHedor y otros son constantes colocadas 
en la lista. Las acciones en el mundo de wumpus se pueden representar mediante térmi- 
nos lôgicos: 

GirariDerecha), Girar(Izquierda), Avanzar, Disparar, Agarrar, Libertar, Escalar 
Para hallar qué accion es la mejor, el programa del agente construye una peticiôn como esta 

3a MejorAcciôn(a, 5) 

Preguntar resolveria esta peticiôn y devolverfa una lista de ligaduras como {a/Agarrar}. 
El programa del agente entonces puede devolver Agarrar como la accion que debe 11e- 
var a cabo, pero primero debe Decir a la propia base de conocimiento que esta ejecu- 
tando la accion Agarrar. 

Los datos acerca de las crudas percepciones implican ciertos hechos acerca del es- 
tado actual. Por ejemplo: 

Vf, 5, g, m, c Percepciôn(\s, Brisa, g, m, c], t) => Brisait), 

Vf, s, b, m, c Percepciôn([s, b, Resplandor, m, c], f) => Resplandor(t), 



LÔG1CA DE PRIMER ORDEN 293 


SINCRONICA 

DIACRÔNICA 


etcétera. Estas réglas muestran una forma trivial del proceso de razonamiento denomi- 
nado percepciôn, que estudiaremos en profundidad en el Capitulo 24. Fijese en la cuan- 
tificaciôn sobre t. En la lôgica proposicional, habriamos necesitado copias de cada 
sentencia para cada instante de tiempo. 

El comportamiento simple de tipo «reflexivo» también puede ser implementado 
mediante sentencias de implication cuantificada. Por ejemplo, tenemos 

V t Resplandor{t) => MejorAcciôn(Agarrar, t ) 

Dadas las percepciones y las réglas de los pârrafos precedentes, esto nos daria la con¬ 
clusion deseada MejorAcciôn(Agarrar, 5) (es decir, Agarrar es lo mas correcto a hacer). 
Fijese en la correspondencia entre esta régla y la conexiôn directa percepciôn-acciôn de 
los agentes basados en circuitos de la Figura 7.20; la conexiôn en el circuito se cuanti- 
fica implîcitamente sobre el tiempo. 

Hasta ahora en esta secciôn, las sentencias que tratan con el tiempo han sido senten¬ 
cias sincrônicas («al mismo tiempo»), es decir, las sentencias relacionan propiedades 
del estado del mundo con otras propiedades del mismo estado del mundo. Las senten¬ 
cias que permiten razonar «a través del tiempo» se denominan diacrônicas; por ejem¬ 
plo, el agente necesita saber combinar la informaciôn acerca de sus localizaciones 
anteriores con la informaciôn acerca de la acciôn que acaba de realizar, para establecer 
su localizaciôn actual. Aplazaremos la discusiôn acerca de las sentencias diacrônicas has¬ 
ta el Capitulo 10; por ahora, solo asuma que las inferencias necesarias se han realizado 
para los predicados de localizaciôn, y otros, dependientes del tiempo. 

Hemos representado las percepciones y las acciones; ahora es el momento de re- 
presentar el propio entorno. Vamos a empezar con los objetos. Los candidatos obvios 
son las casillas, los hoyos y el wumpus. Podriamos nombrar cada casilla ( Casilla l2 , 
etcétera) pero entonces el hecho de que la Casilla , 2 y la Casilla l 3 estén adyacentes ten- 
drfa que ser un hecho «extra», y necesitariamos un hecho de este tipo para cada par de 
casillas. Es mejor utilizar un término complejo en el que la fila y la columna aparezcan 
como enteros; por ejemplo, simplemente podemos usar la lista de términos [1, 2], La ad- 
yacencia entre dos casillas se puede définir mediante 

Vx, y, a, b, Adyacente([.x, y], [a, b]) <=> 

[a, b] e {[x + 1, y], [x - 1, y], [x, y + 1], [x, y - 1]} 

También podriamos nombrar cada hoyo, pero séria inapropiado por otro motivo: no hay 
ninguna razôn para distinguir a unos hoyos de otros 9 . Es mucho mas sencillo utilizar un 
predicado unario Hoyo que es verdadero en las casillas que contengan hoyos. Por ülti- 
mo, como solo hay exactamente un wumpus, una constante Wumpus es tan buena como 
un predicado unitario (y quizâ mas digno para el punto de vista del wumpus). El wum¬ 
pus vive exactamente en una casilla, por tanto es una buena idea utilizar una funciôn como 
Casa(Wumpus) para nombrar la casilla. Esto évita por completo el enorme conjunto de 


9 De forma similar, muchos de nosotros no nombramos cada pâjaro que vuela sobre nuestras cabezas en sus 
migraciones a regiones mâs câlidas en invierno. Un ornitôlogo que desea estudiar los patrones de migracion, 
los ratios de supervivencia, etcétera, nombrarla cada pâjaro por medio de una alarma en su pata, porque cada 
pâjaro debe ser observado. 
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REGLAS DE 
DIAGNÔSTICO 


REGLAS CAUSALES 


sentencias que se necesitaban en la logica proposicional para decir que una casilla en 
concreto contema al wumpus. (Aün séria mucho peor para la logica proposicional si hu- 
bieran dos wumpus.) 

La localizaciôn del agente cambia con el tiempo, entonces escribiremos EniAgente, 
s, t) para indicar que el agente se encuentra en la casilla s en el instante t. Dada su loca- 
lizaciôn actual, el agente puede inferir las propiedades de la casilla a partir de las pro- 
piedades de su percepciôn actual. Por ejemplo, si el agente se encuentra en una casilla 
y percibe una brisa, entonces la casilla tiene una corriente de aire: 

y s, t En(Agente, s, t) a Brisa(t) => Corriente Aire(s) 

Es ütil saber si una casilla tiene una corriente de aire porque sabemos que los hoyos no 
pueden desplazarse. Fijese en que CorrienteAire no tiene el argumento del tiempo. 

Habiendo descubierto qué casillas tienen brisa (o son apestosas) y, muy importan¬ 
te, las que no tienen brisa (o no son apestosas), el agente puede deducir dônde estân los 
hoyos (y dônde esta el wumpus). Hay dos tipos de réglas sincrônicas que podrfan per- 
mitir sacar este tipo de deducciones: 

• Réglas de diagnôstico: 

Las réglas de diagnôstico nos llevan de los efectos observados a sus causas ocul- 
tas. Para encontrar hoyos, las réglas obvias de diagnôstico dicen que si una casi¬ 
lla tiene una brisa, alguna casilla adyacente debe contener un hoyo, o 

\/s CorrienteAire(s) => 3r Adyacenteiy, s) AHoyo(r) 

y si una casilla no tiene una brisa, ninguna casilla adyacente contiene un hoyo 10 : 

y s -iCorrienteAire(s) => Sr Adyacente(r, s) a Hoyo(r) 

Combinando estas dos réglas, obtenemos la siguiente sentencia bicondicional 

y s CorrienteAire(s) <=> 3r Adyacentely, s) a Hoyo(r) (8.3) 

• Réglas causales: 

Las réglas causales reflejan la direcciôn que se asume de causalidad en el mun- 
do: algunas propiedades ocultas del mundo causan que se generen ciertas per- 
cepciones. Por ejemplo, un hoyo causa que todas sus casillas adyacentes tengan 
una brisa: 


Vr Hoyo(r) => [ Va Adyacenteis, r) => CorrienteAire(s)] 

y si todas las casillas adyacentes a una casilla dada no tienen hoyos, la casilla no 
tiene brisa: 


y s [V r Adyacente(r, s) => ->Hoyo(r) ] => -^Corriente Aire(s) 


10 Hay una lendencia humana natural en olvidar anolar la informaciôn negativa de este tipo. En una conver- 
saciôn esta tendencia es totalmente normal (séria muy extrano decir «Hay dos copas en la rnesay no hay très 
o mâs,» aunque pensar que «Hay dos copas en la mesa» sigue siendo verdadero, estrictamente hablando, cuan- 
do hay très o mâs). Retomaremos este tema en el Capltulo 10. 
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Con algo de esfuerzo, es posible demostrar que estas dos sentencias juntas son équi¬ 
valentes lôgicamente a la sentencia bicondicional de la Ecuaciôn (8.3). También 
se puede pensar en la propia bicondicional como en una régla causal, porque des- 
cribe como se généra el valor de verdad de CorrienteAire a partir del estado del 
mundo. 


RAZONAMIENTO 
BASADO EN MODELOS 



Los sistemas que razonan con réglas causales se denominan sistemas de razona- 
miento basado en modelos, porque las réglas causales forman un modelo de como se 
comporta el entomo. La diferencia entre el razonamiento basado en modelos y el de diag- 
nôstico es muy importante en muchas areas de la IA. El diagnôstico médico en concre- 
to ha sido un area de investigaciôn muy activa, en la que los enfoques basados en 
asociaciones directas entre los smtomas y las enfermedades (un enfoque de diagnôsti- 
co) han sido reemplazados gradualmente por enfoques que utilizan un modelo explici- 
to del proceso de la enfermedad y de como se manifiesta en los smtomas. Estos temas 
se presentarân también en el Capitulo 13. 

Cualquier tipo de representaciôn que el agente utilice, si los axiomas describen co- 
rrecta y completamente la forma en que el mundo se comporta y la forma en que las 
percepciones se producen, enfonces cualquier procedimiento de inferencia lôgica 
completo inferirâ la posible descripciôn del estado del mundo mâs robusta, dadas las 
percepciones disponibles. Asi que el disenador del agente puede concentrarse en ob- 
tener el conocimiento acorde, sin preocuparse demasiado acerca del proceso de de- 
ducciôn. Ademâs, hemos visto que la lôgica de primer orden puede representar el 
mundo de wumpus, y no de forma menos précisa que la descripciôn en lenguaje na- 
tural dada en el Capitulo 7. 


8.4 Ingenieria del conocimiento con lôgica 
de primer orden 


La secciôn anterior ilustraba el uso de la lôgica de primer orden para representar el co¬ 
nocimiento de très dominios sencillos. Esta secciôn describe el proceso general de cons- 
ingenieria del trucciôn de una base de conocimiento (un proceso denominado ingenieria del 

cünouiiviien o conocimiento). Un ingeniero del conocimiento es alguien que investiga un dominio con- 

creto, aprende qué conceptos son los importantes en ese dominio, y créa una represen- 
taciôn formai de los objetos y relaciones del dominio. Ilustraremos el proceso de 
ingenieria del conocimiento en un dominio de circuitos electrônicos, que imaginamos 
ya es bastante familiar, para que nos podamos concentrar en los temas representaciona- 
les involucrados. El enfoque que tomaremos es adecuado para desarrollar bases de co¬ 
nocimiento de propôsito-especifico cuyo dominio se circunscribe cuidadosamente y 
cuyo rango de peticiones se conoce de antemano. Las bases de conocimiento de propô- 
sito-general, cuya intenciôn es que apoyen las peticiones de todo el abanico del cono¬ 
cimiento humano, se discutirân en el Capitulo 10. 
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El proceso de ingenierfa del conocimiento 

Los proyectos de ingenierfa del conocimiento varian ampliamente en su contenido, al- 
cance, y dificultad, pero todos estos proyectos incluyen los siguientes pasos: 


ADQUISICIÔN DEL 
CONOCIMIENTO 


0NT0L0GÎA 


1. Identificar la tarea. El ingeniero del conocimiento debe delinear el rango de las 
preguntas que la base de conocimiento debe soportar y los tipos de hechos que 
estarân disponibles para cada instancia de problema en particular. Por ejemplo, 
/la base de conocimiento wumpus necesita ser capaz de escoger las acciones o 
se requiere que solo responda a las preguntas acerca del contenido del entorno? 
/Los hechos sensoriales incluirân la localizaciôn actual? La tarea determinarâ 
qué conocimiento debe ser representado para conectar las instancias de los pro- 
blemas a las respuestas. Este paso es anâlogo al proceso REAS del diseno de 
agentes del Capftulo 2. 

2. Recopilar el conocimiento relevante. El ingeniero del conocimiento deberfa ser 
ya un experto en el dominio, o deberfa necesitar trabajar con expertos reales para 
extraer el conocimiento que ellos poseen (en un proceso denominado adquisi- 
ciôn del conocimiento). En esta fase el conocimiento no se représenta formal- 
mente. La idea es entender el alcance de la base de conocimiento, tal como se 
déterminé en la tarea, y entender como trabaja realmente el dominio. 

Para el ejemplo del mundo de wumpus, que esta definido por un conjunto 
artificial de réglas, el conocimiento relevante es fâcil de identificar. (Sin embargo, 
ffjese que la definiciôn de adyacencia no estaba suministrada explfcitamente por 
las réglas del mundo de wumpus.) Para los dominios reales, el tema de la rele- 
vancia puede ser bastante diffcil, por ejemplo, un sistema de simulaciôn de di- 
senos de VLSI podrfa, o no, necesitar tener en cuenta las pérdidas de capacitacion 
o los efectos de revestimiento. 

3. Decidir el vocabulario de los predicados.funciones y constantes. Es decir, traducir 
los conceptos importantes del nivel del dominio a nombres del nivel lôgico. Esto 
involucra a muchas cuestiones de estilo de la ingenierfa del conocimiento. Al igual 
que el estilo de la programaciôn, esto puede tener un impacto significativo en el 
éxito final del proyecto. Por ejemplo, /los hoyos estarfan representados por obje- 
tos o por un predicado unitario aplicado a las casillas? /La orientacion del agen¬ 
te estaria representada por una funcion o un predicado? /La localizaciôn del 
wumpus dependeria del tiempo? Una vez se han realizado las elecciones, el re- 
sultado es un vocabulario que se conoce por la ontologfa del dominio. La palabra 
ontologia indica una teorfa concreta sobre la naturaleza del ser o de la existencia 
de algo. La ontologfa establece qué tipo de cosas existen, pero no détermina sus 
propiedades e interrelaciones especfficas. 

4. Codificar el conocimiento general acerca del dominio. El ingeniero del cono¬ 
cimiento anota los axiomas para todos los términos del vocabulario. Esto hace 
que se defina (en todo lo posible) el signifie ado de los términos, permitiendo al 
experto comprobar el contenido. A menudo, esta fase révéla ideas equivocadas 
o lagunas en el vocabulario, que deberân fijarse volviendo al paso 3 y repitien- 
do los pasos del proceso. 
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5. Codificar una description de la instancia de un problema espetifico. Si la on- 
tologia esta bien pensada este paso sera fâcil. Consistirâ en escribir sentencias 
atômicas sencillas acerca de instancias de conceptos que ya son parte de la on- 
tologia. Para un agente lôgico, las instancias del problema se obtienen de los sen- 
sores, mientras que para una base de conocimiento «no corpôrea» se obtienen 
de sentencias adicionales de la misma manera que un programa tradicional las 
obtiene de los datos de entrada. 

6 . Plantear peticiones al procedimiento de inferencia y obtener respuestas. Esta 
es la fase en donde se obtiene la recompensa: podemos dejar al procedimiento 
de inferencia trabajar sobre los axiomas y los hechos del problema concreto para 
derivar los hechos que estamos interesados en conocer. 

7. Depurar la base de conocimiento. Rara vez, las respuestas a las peticiones son 
correctas en un primer intenta. Mas concretamente, las respuestas serân correctas 
para la base de conocimiento como sifueran escritas, asumiendo que el proce¬ 
dimiento de inferencia sea sôlido, pero no serân las que el usuario estaba espe- 
rando. Por ejemplo, si falta un axioma, algunas peticiones no serân respondidas 
por la base de conocimiento. Esto podrfa resultar un proceso de depuraciôn con¬ 
sidérable. Axiomas ausentes o axiomas que son demasiado débiles se pueden 
identificar fâcilmente fijândonos en los sitios donde la cadena del razonamien- 
to para inesperadamente. Por ejemplo, si la base de conocimiento incluye uno 
de los axiomas de diagnôstico para hoyos, 

Vs CorrienteAire{s) => 3/- Adyacentely, 5 ) a Hoyo(r) 
pero no el otro axioma, enfonces el agente nunca serâ capaz de demostrar la au- 
sencia de hoyos. Los axiomas incorrectes se pueden identificar porque son 
enunciados falsos acerca del mundo. Por ejemplo, la sentencia 

V x NumPatasfx, 4) => Mamifero(x) 

es falsa para los reptiles, anfibios, y mucho mâs importante, para las mesas. Lafal- 
sedad de esta sentencia se puede determinar independientemente del resto de la 
base de conocimiento. En contraste, un error tipico en un programa se parece a éste: 

offset 11 = posiciôn + 1 

Es imposible decir si este enunciado es correcto sin mirar el resto del programa 
para ver si, por ejemplo, offset se utiliza para referirse a la posiciôn actual, o a 
una mâs allâ de la posiciôn actual, o si el valor de posiciôn es cambiado por otro 
enunciado y asi offset séria otra vez cambiado. 

Para entender mejor este proceso de siete pasos vamos a aplicarlo a un ejemplo ampliado: 
el dominio de los circuitos electrônicos. 

El dominio de los circuitos electrônicos 

Desarrollaremos una ontologia y una base de conocimiento que nos permitirâ razonar 
acerca de los circuitos digitales del tipo como el que se muestra en la Figura 8.4. Se- 
guiremos el proceso de los siete pasos de la ingenieria del conocimiento. 


11 En espanol compensaciôn, aunque en tipografîa se utiliza el término offset. (N del RT.) 
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Figura 8.4 El circuito digital Cl, pretendiendo que sea un sumador de un bit. Las dos primeras 
entradas son los dos bits a ser sumados y la tercera entrada es un bit de acarreo. La primera salida 
es la suma, y la segunda salida es el bit de acarreo para la siguiente adicion. El circuito contiene 
dos puertas XOR, dos puertas AND y una puerta OR. 


Identifïcar la tarea 

Hay muchas tareas de razonamiento relacionadas con los circuitos digitales. En el ni- 
vel mas alto, uno analiza la funcionalidad del circuito. Por ejemplo, /ci circuito de la 
Figura 8.4 realmente suma correctamente? Si todas las entradas son buenas, /cuâl es 
la salida de la puerta A2? También son interesantes las preguntas acerca de la estruc- 
tura del circuito. Por ejemplo, /cstan todas las puertas conectadas a la primera termi¬ 
nal de entrada? /El circuito contiene bucles de retroalimentacion? Estas serân nuestras 
tareas en esta seccion. Hay mas niveles de anâlisis detallados, incluyendo aquellos re- 
lacionados con retardos temporales, superficie del circuito, consumo de corriente, cos- 
te de produccion, etcétera. Cada uno de estos niveles requeriria de un conocimiento 
adicional. 


Recopilar el conocimiento relevante 

/Que sabemos acerca de los circuitos digitales? Para nuestros propôsitos, los circuitos 
digitales estân compuestos por cables y puertas. La senal circula por los cables a las ter¬ 
minales entrada de las puertas, y cada puerta produce una senal en la terminal salida que 
circula a través de otro cable. Para determinar cômo serân estas senales, necesitamos sa- 
ber cômo transforman las puertas su senal de entrada. Hay cuatro tipos de puertas: las 
puertas AND, OR y XOR tienen dos terminales de entrada, las puertas NOT tienen una. 
Todas las puertas tienen una terminal de salida. Los circuitos, al igual que las puertas, 
tienen terminales de entrada y de salida. 

Para razonar acerca de la funcionalidad y la conectividad no necesitamos hablar acer¬ 
ca de los propios cables, los recorridos que los cables realizan, o los empalmes en los 
que dos cables se juntan. Todo lo que nos importa son las conexiones entre los termi¬ 
nales (podemos decir que un terminal de salida esta conectado con otro terminal de en¬ 
trada sin tener que mencionar el cable que realmente los conecta). Hay muchos factores 




























LÔG1CA DE PRIMER ORDEN 299 


del dominio que son irrelevantes para nuestro anâlisis, taies como el tamano, la forma, 
el color, o el coste de los diferentes componentes del circuito. 

Si nuestro proposito fuera algo distinto a la verificaciôn del diseno al nivel de puer- 
tas, la ontologia séria diferente. Por ejemplo, si estuviéramos interesados en depurar cir- 
cuitos defectuosos, enfonces probablemente séria una buena idea incluir los cables en 
la ontologia, porque un cable defectuoso puede corromper el flujo de senal que pasa por 
él. Para resolver defectos de tiempo, necesitariamos incluir puertas de retardo. Si estu¬ 
viéramos interesados en disenar un producto que fuera rentable, enfonces serian impor¬ 
tantes el coste del circuito y su velocidad relativa a otros productos del mercado. 


Decidir el vocabulario 

Ahora sabemos que queremos hablar acerca de circuitos, terminales, senales y puertas. 
El siguiente paso es elegir las funciones, predicados y constantes para representarlos. Co- 
menzaremos a partir de las puertas individuales y ascenderemos a los circuitos. 

Lo primero, necesitamos ser capaces de distinguir una puerta de las otras. Esto se 
contrôla nombrando las puertas con constantes: A,, A 2 , etcétera. Aunque cada puerta esta 
conectada en el circuito en su manera particular, su comportamiento (la forma en que 
transforma las senales de entrada en la senal de salida) solo dépende de su tipo. Pode- 
mos utilizar una funcion para referirnos al tipo de puerta 12 . Por ejemplo, podemos es- 
cribir Tipo(X j) = XOR. Esto introduce la constante XOR para un tipo concreto de puerta; 
las otras constantes se llamarân OR, AND y NOT, la funcion Tipo no es la ünica forma 
de codificar la distincion ontolôgica. Podriamos haber utilizado un predicado binario, 
Tipo{X p XOR), o diferentes predicados individuales, como XORiX j). Cualquiera de es¬ 
tas elecciones trabajaria correctamente, pero al elegir la funcion Tipo evitamos la nece- 
sidad de un axioma que diga que cada puerta individual solo puede ser de un tipo. La 
semântica de la funcion ya lo garantiza. 

Ahora consideraremos los terminales. Una puerta o un circuito puede tener uno o 
mas terminales de entrada y uno o mas terminales de salida. Simplemente podriamos 
nombrar cada uno con una constante, igual que hicimos con las puertas. De esta mane¬ 
ra, la puerta A, podria tener los terminales cuyos nombres serian X 1 Entrada v X x Entra- 
da 2 , y X\Salida v Sin embargo, la tendencia a generar nombres compuestos largos se 
deberia evitar. Llamar a algo X x Enîrada x no hace que sea la primera entrada de Xp ne¬ 
cesitariamos decir esto utilizando una asercion explicita. Probablemente es mejor nom¬ 
brar la puerta utilizando una funcion, tal como nombramos la pierna izquierda del Rey 
Juan con PiernaIzquierda(Juan). Enfonces dejemos que Entrada{ 1, A,) dénoté el terminal 
de la primera entrada de la puerta X v Utilizarfamos una funcion similar Salida para los 
terminales de salida. 

La conectividad entre las puertas se puede representar por el predicado Conectado, 
que toma dos terminales como argumentas, como en Conectado{Salida{\, A,), Entra- 
da( 1,A 2 )). 


12 Ffjese en que hemos utilizado nombres con las letras adecuadas etcétera) simplemente para hacer 

mâs fâcil la lectura del ejemplo. La base de conocimiento también debe contener informacion sobre los ti- 
pos de puertas. 
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Por ültimo, necesitamos saber si una senal esta on u off. Una posibilidad es utilizar 
un predicado unitario, On, que sea verdadero cuando la senal de un terminal es on. Sin 
embargo, esto hace un poco dificil plantear preguntas taies como «^Cuâles son todos los 
posibles valores de las seriales de los terminales de salida del circuito C{!» Por lo tanto, 
introduciremos los dos «valores de la senal» como las constantes 1 y 0, y una funcion Se¬ 
nal que tome un terminal como argumento y dénoté el valor de senal para ese terminal. 

Codificar el conocimiento general del dominio 

Un sintoma de que poseemos una buena ontologia es que haya pocas réglas generales que 
se necesiten especificar. Un sintoma de que tengamos un buen vocabulario es que cada ré¬ 
gla se pueda representar de forma clara y précisa. En nuestro ejemplo, solo necesitamos sie- 
te réglas sencillas para describir cada cosa que necesitamos saber acerca de los circuitos: 

1. Si dos terminales estân conectados enfonces tienen la misma senal: 

Vq, t 2 Conectado(t v t 2 ) => SenaKj j) = Senal(t 2 ) 

2. Ua senal de cada terminal es o bien 1 o bien 0 (pero no ambos): 

Vf Senal{t) = 1 v Senal{t) = 0 
1 A 0 

3. El predicado Conectado es conmutativo: 

Vf j, t 2 Conectado(t v t 2 ) <=> Conectado(t 2 , q) 

4. La salida de una puerta OR es 1 si y solo si alguna de sus entradas son 1: 

Vg Tipo(g) = OR => Senal(Salida(l, g)) = 1 o 3n Senal(Entrada(n, g)) = 1 

5. La salida de una puerta AND es 0 si y solo si cualquiera de sus entradas es 0: 
Vg Tipo(g) = AND => Senal(Salida(\, g)) = 0 <=> 3n Senal(Entrada(n, g)) = 0 

6. La salida de una puerta XOR es 1 si y solo si sus entradas son diferentes: 

Vg Tipo(g) = XOR 

Senal(Salida{ 1, g)) = 1 <=> Senal(Entrada{ 1, g)) A SenaI(Entrada(2, g)) 

7. La salida de una puerta NOT es la opuesta de su entrada: 

Vg (Tipo(g) = NOT) => Senal(Salida(\, g)) V Senal(Enrrada( \, g)) 


Codificar la instancia del problema especifico 

El circuito que se muestra en la Ligura 8.4 esta codificado como el circuito C v con la 
siguiente descripcion. Lo primero que hacemos es categorizar las puertas: 

TipoiX,) = XOR Tipo(X 2 ) = XOR 
Tipo(Ap = AND Tipo(A 2 ) = AND 
Tipo(O x ) = OR 
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Enfonces, mostramos las conexiones entre ellas: 


Conectado(SaIida(l, Xj), Entrada{ 1, X 2 )) 
Conectado(Salida(l, X 3 ), Entrada{2, A 2 )) 
Conectado(Salida(l, A 2 ), Entrada{\, O J) 
Conectado(Salida(l, A 3 ), Entrada(2, O J) 
Conectado(SaUda(l,X 2 ), Salida (1, CJ) 
Conectado(Salida( 1, O J Salida (2, Cj)) 


Conectado(Entrada( 1, Cj), Entrada{\,XJ) 
Conectado{Entrada{\, C\), Entradai 1, A,)) 
Conectado(Entrada(2, C\), Entrada( 2, Xj)) 
Conectado(Entrada(2, Cj), Entrada( 2, A;)) 
Conectado{Entrada{3, CJ Entrada{ 2, X 2 )) 
Conectado{Entrada{3, C\), Entrada(l, A 2 )) 


Plantear peticiones al procedimiento de inferencia 

Que combinaciôn de entradas causaria que la primera salida de Cj (la suma de bits) sea 
0 y que la segunda salida de C, (el bit de acarreo) sea 1? 

3/ p i 2 , i 3 Senal(Entrada( 1, C,)) = a Senal{Entrada(2, C,)) = i 2 

a Senal(Entrada(3, C,)) = 4 a Senal(Salida(l, C,)) = 0 a Senal(SaUda(2, C,)) = 1 

Las respuestas serian las sustituciones de las variables i 2 , e i 3 de tal modo que la 
sentencia résultante esté implicada de la base de conocimiento. Hay très posibles susti¬ 
tuciones: 


{q/1, ij 1, 4/0} 


{ij 1, 4/°’ É/ 1 ) 


{«'i/o, 4/1,4/1} 


/ Cuâlcs son los posibles conjuntos de valores de los terminales para el circuito de suma? 


3/ p 4 , 4 , Dp Senal(Entrada( 1, C/)) = 4 A Senal(Entrada(2, Cj)) = i 2 

a Senal(Entrada(3, C/)) = 4 A Senal(Salida( 1, C t )) = o, a Senal(Salida( 2, C,)) = d 2 


VERIFICACIÔN DE 
CIRCUITOS 


Esta ültima peticion devuelve una tabla compléta de entradas-salidas para el dispositi- 
vo, que se puede utilizar para comprobar si en efecto realiza correctamente la suma. Este 
es un ejemplo sencillo de la verificaciôn de circuitos. También podemos utilizar la de- 
finicion del circuito para constmir sistemas digitales mas grandes, sobre los cuales, se 
puede aplicar el mismo tipo de procedimiento de verificaciôn. ( Véase Ejercicio 8.17.) 
Muchos dominios son tratables con el mismo método de desarrollo de una base de co¬ 
nocimiento estructurada, en los que los conceptos mas complejos se definen con base 
en los mas sencillos. 


Depurar la base de conocimiento 

Podemos perturbar la base de conocimiento de muchas maneras para averiguar qué ti- 
pos de comportamientos errôneos emergen. Por ejemplo, suponga que omitimos la aser- 
ciôn acerca de que 1 ri O 13 . De repente, el sistema sera incapaz de demostrar las salidas 
del circuito, excepto en los casos en los que las entradas sean 000 y 110. Podemos lo- 


13 Este tipo de omision es bastante comün porque los humanos tfpicamente asurnen que nombres diferentes 
se refieren a cosas diferentes. Los sistemas de programacion logica, que se describen en el Capitulo 9, tam¬ 
bién realizan esta asuncion. 
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calizar el problema preguntando por las salidas de cada puerta. Por ejemplo, podemos 
preguntar 

3/[, i 2 , o Senal(Entrada(\, C\)) = /, a Senal{Entrada{ 2, C\)) = i 2 a Senal{Salida( 1, A', )) 

que révéla que no se conocen las salidas de la puerta X x para los casos en los que las en- 
tradas son 10 y 01. Enfonces, observamos el axioma acerca de las puertas XOR, apli- 
cada a la puerta Xÿ 

Senal(Salida(\,X^j) = 1 o Senal(Entrada( 1, X, )) A Se fui K Entradai 2, X, ) ) 

Si se sabe que las entradas deben ser 1 y 0, entonces esto se reduce a 

Senal(Salida{\,X x )) = 1 o 1 # 0 

Ahora el problema es aparente: el sistema es incapaz de inferir que Sena\{Salida{\, 
XI)) = 1, por lo tanto, necesitamos decirle que 1 A 0. 

8.5 Resumen 


En este capitulo hemos introducido la lôgica de primer orden, un lenguaje de repre- 
sentaciôn que es mucho mas potente que la lôgica proposicional. Los puntos importan¬ 
tes son los siguientes: 

• Los lenguajes de representaciôn del conocimiento deberian ser declarativos, com- 
posicionales, expresivos, independientes del contexto, y no ambiguos. 

• Las lôgicas difieren en sus compromisos ontolôgicos y compromisos episte- 
molôgicos. Mientras que la lôgica proposicional se compromete solo con la exis- 
tencia de hechos, la lôgica de primer orden se compromete con la existencia de 
objetos y sus relaciones, y por ello gana poder expresivo. 

• Un mundo posible, o modelo, se define para la lôgica de primer orden como un 
conjunto de objetos, las relaciones entre ellos y las funciones que se les puede apli- 
car. 

• Los simbolos de constante identifican los objetos, los simbolos de predicado iden- 
tifican las relaciones, y los simbolos de funciôn identifican las funciones. Una in- 
terpretaciôn especifica una aplicaciôn de los simbolos al modelo. Los términos 
complejos aplican simbolos de funciôn a los términos para identificar un objeto. 
Dados un modelo y una interpretaciôn, se détermina el valor de verdad de la sen- 
tencia. 

• Una sentencia atômica consiste en un predicado aplicado a uno o mas términos; 
el predicado es verdadero cuando la relaciôn identificada por el predicado sucede 
entre los objetos identificados por los términos. Las sentencias compuestas uti- 
lizan las conectivas como lo hace la lôgica proposicional, y las sentencias cuan- 
tificadas permiten expresar réglas generales. 

• Desarrollar una base de conocimiento en lôgica de primer orden requiere un pro- 
ceso cuidadoso para analizar el dominio, escoger el vocabulario y codificar los axio- 
mas que se necesitan para soportar las inferencias deseadas. 
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Notas bibliogrâficas e histôricas 

Aunque incluso la lôgica de Aristôteles trata con la generalizaciôn sobre los objetos, los 
inicios reales de la lôgica de primer orden, con la introducciôn de los cuantificadores, 
se dan en el Begriffschrift («Escritura de Conceptos» o «Notaciôn Conceptual») de Got- 
tlob Frege (1879). La habilidad de Frege para anidar los cuantificadores fue un gran paso 
adelante, sin embargo, él utilizaba una notaciôn algo poco elegante (un ejemplo apare- 
ce en la portada de este libro). La notaciôn actual de la lôgica de primer orden es sus- 
tancialmente de Giuseppe Peano (1889), pero la semântica es virtualmente idéntica a la 
de Frege. Aunque de manera extrada, los axiomas de Peano se debieron en gran medi- 
da la Grassmann (1861) y Dedekind (1888). 

Una de las barreras mas grandes en el desarrollo de la lôgica de primer orden ha sido 
la concentraciôn de esfuerzo en la lôgica monâdica respecto a la poliâdica. Esta fijaciôn 
sobre los predicados monâdicos habia sido casi universal en los sistemas lôgicos desde 
Aristôteles hasta Boole. El primer tratamiento sistemâtico acerca de las relaciones lo re- 
alizô Augustus de Morgan (1864), quien citaba el siguiente ejemplo para mostrar los ti- 
pos de inferencia que la lôgica de Aristôteles no podia manejar: «Todos los caballos son 
animales; por tanto, la cabeza de un caballo es la cabeza de un animal.» Esta inferencia 
es inaccesible a Aristôteles porque cualquier régla valida que puede apoyar esta inferencia 
primera debe analizar la sentencia utilizando el predicado binario «x es la cabeza de y». 
La lôgica de las relaciones fue estudiada en profundidad por Charles Sanders Peirce 
(1870), quien también desarrollo la lôgica de primer orden independientemente de Fre¬ 
ge, aunque un poco mas tarde (Peirce, 1883). 

Léopold Lôwenheim (1915) realizô un tratamiento sistemâtico de la teoria de mo- 
delos para la lôgica de primer orden en 1915. Este texto trataba el simbolo de igualdad 
como una parte intégral de la lôgica. Los resultados de Lôwenheim se desarrollaron bas- 
tante por Thoralf Skolem (1920). Alfred Tarski (1935, 1956) dio una definiciôn expli¬ 
cita del valor de verdad y de la satisfacciôn en la teoria de modelos para la lôgica de primer 
orden, utilizando la teoria de conjuntos. 

McCarthy (1958) fue el principal responsable de la introducciôn de la lôgica de pri¬ 
mer orden como una herramienta para construir sistemas de IA. El porvenir de la IA 
basada en la lôgica fue avanzando de forma significativa a partir del desarrollo de la re- 
soluciôn de Robinson (1965), un procedimiento completo de inferencia para la lôgica 
de primer orden, que se describe en el Capitulo 9. El enfoque lôgico asentô sus raices 
en el Stanford. Cordell Green (1969a, 1969b) desarrollo un sistema de razonamiento en 
lôgica de primer orden, QA3, llevando a los primeros intentos de construir un robot lô¬ 
gico en el SRI (Fikes y Nilsson, 1971). La lôgica de primer orden se aplicô por Zohar 
Manna y Richard Waldinger (1971) para razonar acerca de los programas y mas tarde 
por Michael Genesereth (1984) para razonar acerca de los circuitos. En Europa, la pro- 
gramaciôn lôgica (una forma restringida del razonamiento en lôgica de primer orden) 
se desarrollo para el anâlisis lingiustico (Colmerauer et al., 1973) y para sistemas de- 
clarativos en general (Kowalski, 1974). La lôgica computacional también estuvo bien 
consolidada en Edinburgh a través del proyecto LCF (Lôgica para Funciones Compu- 
tables) de (Gordon et al., 1979). En los Capitulos 9 y 10 se hace una crônica de estos 
desarrollos. 
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Hay un buen nümero de textos introductorios a la logica de primer orden. Quine 
(1982) es uno de los mas legibles. Enderton (1972) da una perspectiva orientada mas a 
las matemâticas. Un tratamiento muy formai de la logica de primer orden, a través de 
muchos y muy avanzados temas de la logica, es el proporcionado por Bell y Machover 
(1977). Manna y Waldinger (1985) dan una introduccion asequible a la logica desde la 
perspectiva de las ciencias de la computaciôn. Galber (1986) proporciona una exposi¬ 
tion matemâtica extremadamente rigurosa de la logica de primer orden, a través del tra¬ 
tamiento de un enorme material sobre su uso en el razonamiento automâtico. Logical 
Foundations ofArtificial Intelligence (Genesereth y Nilsson, 1987) proporciona tanto una 
introduccion sôlida a la logica como el primer tratamiento sistemâtico de los agentes 16- 
gicos, con percepciones y acciones. 



EJERCICIOS 

8.1 Una base de conocimiento représenta el mundo mediante un conjunto de senten- 
cias con una estructura no explicita. Por otro lado, una representacion analôgica tiene 
una estmctura fisica que se corresponde directamente con la estructura de lo que se re¬ 
présenta. Considéré un mapa de carreteras de su pais como una representacion analôgi- 
ca de hechos de ese pais. La estructura bidimensional del mapa se corresponde con la 
estructura bidimensional de la superficie que se analiza. 

a) Dé cinco ejemplos de slmbolos para el lenguaje del mapa. 

b) Una sentencia explicita es una sentencia que el creador de la representacion 
realmente escribe. Una sentencia implîcita es una sentencia que se obtiene de 
las sentencias explicitas a partir de las propiedades de la representacion ana¬ 
lôgica. Dé très ejemplos de sentencias implîcitas y explicitas del lenguaje del 
mapa. 

c) Dé très ejemplos de hechos acerca de la estructura fisica de su pais que no se 
pueden representar en el lenguaje del mapa. 

d) Dé dos ejemplos de hechos que sean mas faciles de expresar en el lenguaje del 
mapa que en logica de primer orden. 

e ) Dé dos ejemplos de representaciones analôgicas utiles. / Cualcs son las venta- 
jas y desventajas de cada uno de estas lenguajes? 


8.2 Considéré una base de conocimiento con tan solo estas dos sentencias: P (a) y P(b). 
/ ; Esta base de conocimiento implica V.r P(x)‘l Explique su respuesta en términos de mo- 
delos. 


8.3 / ; Es valida la sentencia 3x, y x — y? Expliquelo. 

8.4 Escriba una sentencia logica tal que en cada mundo en que sea verdadera conten- 
ga exactamente un objeto. 

8.5 Considéré un vocabulario de simbolos que contenga simbolos de constante c, 
simbolos de predicado p k para cada aridad k, y simbolos de funciôn /j para cada ari- 
dad k, donde 1 < k < A. Permita que el tamaho del dominio esté fijado a D. Para una 
combinaciôn dada de modelo-interpretaciôn, cada simbolo de predicado o de funciôn 
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es una aplicaciôn a una relaciôn o funcion, respectivamente, de la misma aridad. Pue- 
de asumir que las funciones en el modelo permiten algunas tuplas de entrada para las 
cuales la funcion no da ningün valor (por ejemplo, el valor es un objeto invisible). 
Dérivé una formula para el nümero de combinaciones modelo-interpretaciôn para un 
dominio con D elementos. No se preocupe si debe eliminar combinaciones redun- 
dantes. 

8.6 Représente las siguientes sentencias en lôgica de primer orden, utilizando un vo- 
cabulario consistente (que usted debe définir): 

a) Algunos estudiantes estudian francés en la primavera de 2001. 

b) Cada estudiante que estudia francés lo aprueba. 

c) Solo un estudiante estudia griego en la primavera de 2001. 

d ) La mejor puntuaciôn en griego siempre es mayor que la mejor puntuaciôn en 
francés. 

e) Todas las personas que compran una poliza son inteligentes. 

/) Nadie compra una poliza cara. 

g) Hay un agente que vende pôlizas solo a la gente que no esta asegurada. 

h) Hay un barbero que afeita a todos los hombres de la ciudad que no se afeitan 
ellos mismos. 

i) Una persona nacida en Reino Unido, cuyos padres sean ciudadanos de Reino 
Unido o residentes en Reino Unido, es un ciudadano de Reino Unido. 

j) Una persona nacida fuera de Reino Unido, que tenga uno de los padres ciuda¬ 
dano de Reino Unido o residente en Reino Unido, es ciudadano de Reino Uni¬ 
do por ascendencia. 

k) Los politicos pueden mentir a algunos todo el tiempo, y pueden mentir a todos 
algün tiempo, pero no pueden mentir a todos todo el tiempo. 

8.7 Représente la sentencia «Todos los alemanes hablan los mismos idiomas» en câl- 
culo de predicados. Utilice Habla{x, /) para indicar que una persona x habia el idioma /. 

8.8 / ; Qué axioma se necesita para inferir el hecho Femenino(Laura) dados los hechos 
Masculino(Jim ) y EsposoÇJim, Laura)! 

8.9 Escriba un conjunto general de hechos y axiomas para representar la aserciôn «We¬ 
llington oyo que Napoléon habia muerto» y responda correctamente a la pregunta ^Na¬ 
poléon oyo que Wellington habia muerto? 

8.10 Transforme los hechos del mundo de wumpus en lôgica proposicional de la Sec- 
ciôn 7.5 a lôgica de primer orden. ^Cuânto mas compacta es esta version? 

8.11 Escriba axiomas describiendo los predicados Nieto, Bisabuelo, Hermano, Her- 
mana, Hija, Hijo, T la, Tlo, HermanoPolltico, HermanaPolltica y PrimoHermano. Ave- 
rigüe la definiciôn adecuada del primo n.° m, n veces extraido, y escriba la definiciôn en 
lôgica de primer orden. 

Ahora anote los hechos bâsicos que estân representados en el ârbol familiar de la 
Figura 8.5. Mediante un sistema de razonamiento lôgico apropiado, Dile todas las sen¬ 
tencias que ha anotado y PregÜntale quién es el nieto de Elizabeth, los hermanos le¬ 
gales de Diana, y los bisabuelos de Zara. 


306 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 




8.12 Anote una sentencia que aserte que la + es una funcion conmutativa. / ; Su sen- 
tencia se sigue de los axiomas de Peano? Si es asf, explique por qué; y si no, dé un mo- 
delo en el que los axiomas sean verdaderos y su sentencia falsa. 

8.13 Explique qué esta incorrecte en la siguiente definicion propuesta acerca del pre- 
dicado de membresia a un conjunto, e : 

Vx, s x e{x|s} 

Vx, s x e s => Vy x e {y|s} 

8.14 Utilizando el conjunto de axiomas como ejemplo, escriba axiomas del dominio 
de las listas, incluyendo todas las constantes, funciones y predicados que se mencionan 
en el capitulo. 

8.15 Explique qué esta equivocado en la siguiente definicion propuesta acerca de la 
adyacencia de casillas en el mundo de wumpus : 

Vx, y Adyacente([x, y], [x + 1, y]) a Adyacente(\x, y], [x, y + 1]) 

8.16 Escriba los axiomas que se necesitan para razonar acerca de la localizacion del 
wumpus, utilizando el simbolo de constante wumpus y un predicado binario En(wum- 
pus, Localizacion). Recuerde que tan solo hay un wumpus. 

8.17 Amplie el vocabulario de la Secciôn 8.4 para définir la adicion de numéros bi- 
narios de «-bits. Enfonces codifique la descripciôn del sumador de cuatro bits de la Fi¬ 
gura 8.6, y plantée las peticiones que se necesitan para verificar que en efecto se comporta 
correctamente. 

8.18 La representacion del circuito en el capitulo es mas detallado de lo que se nece- 
sita si solo nos preocupa la funcionalidad del circuito. Una formulacion mas sencilla des- 
cribe cualquier puerta, o circuito, de « 2 -entradas y «-salidas, utilizando un predicado con 
m + n argumentos, de tal manera que el predicado es verdadero cuando las entradas y 
las salidas son consistentes. Por ejemplo, las puertas NOT se describen mediante un pre¬ 
dicado binario NOT(i, o ) para el cual NOTii), 1) y NOTi 1,0) se conocen. Las composi- 
ciones de puertas se definen mediante conjunciones de predicados de puertas en las que 
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las variables compartidas indican conexiones directas. Por ejemplo, un circuito NAND 
puede estar compuesto por puertas AND y puertas NOT : 

V/,, i 2 , o a , o NAND(i v i 2 , o) <=> AND(i v i 2 , o a ) a NOT(o a , o) 

Utilizando esta representacion, defina el sumador de un bit de la Figura 8.4 y el suma- 
dor de cuatro bits de la Figura 8.6, y explique qué peticiones utilizaria para verificar los 
disenos. / ; Qué tipos de preguntas no se soportan mediante esta representacion que si se 
soportan mediante la representacion de la Seccion 8.4? 

8.19 Obtenga una solicitud de pasaporte de su pais, identifique las réglas que deter- 
minan la aprobacion del pasaporte, y tradüzcalas a la logica de primer orden, siguiendo 
los pasos perfilados en la Seccion 8.4. 







































Inferencia en lôgica 
de primer orden 


: 


: 


Donde definiremos procedimientos eficientes para responder a preguntas planteadas 
en lôgica de primer orden. 


En el Capitulo 7 se definiô el concepto de inferencia y se demostrô cômo se puede 11e- 
var a cabo inferencia compléta y sôlida en lôgica proposicional. En este capitulo am- 
pliamos estos temas para conseguir algoritmos que pueden responder a preguntas 
expresadas en lôgica de primer orden. Esto es muy significativo, porque si se trabaja duro, 
mas o menos cualquier cosa se puede representar en lôgica de primer orden. 

En el Apartado 9.1 introducimos las réglas de inferencia para los cuantificadores 
y mostramos cômo reducir la inferencia de primer orden a la inferencia proposicio¬ 
nal, aunque con un gran coste. En el Apartado 9.2 describimos el concepto de unifï- 
caciôn, mostrando cômo se puede utilizar para construir réglas de inferencia que 
trabajen directamente en lôgica de primer orden. Entonces discutimos sobre las très 
grandes familias de algoritmos de inferencia de primer orden: en el Apartado 9.3 se 
tratan el encadenamiento hacia delante y sus aplicaciones en las bases de datos de- 
ductivas y en los sistemas de producciôn; en el Apartado 9.4 se desarrollan el en- 
cadenamiento hacia atrâs y los sistemas de programaciôn lôgica; y en el Apartado 
9.5 se describen los sistemas de demostraciôn de teoremas basados en la resoluciôn. 
Por lo general, uno intenta utilizar el método mas eficiente que se pueda acomodar a 
los hechos y axiomas que se necesitan expresar. El razonamiento con sentencias to- 
talmente generales en lôgica de primer orden mediante la resoluciôn suele ser menos 
eficiente que el razonamiento con clâusulas positivas mediante el encadenamiento ha¬ 
cia delante o hacia atrâs. 
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9.1 Lôgica proposicional vs. Lôgica de primer orden 


Esta secciôn y la siguiente introducen las ideas sobre las que se basan los sistemas ac- 
tuales de inferencia lôgicos. Comenzamos con algunas réglas de inferencia sencillas que 
se pueden aplicar a las sentencias con cuantificadores para obtener sus sentencias équi¬ 
valentes, sin cuantificar. Estas réglas nos conducen de forma natural a la idea de que la 
inferencia de primer orden se puede hacer convirtiendo la base de conocimiento a lôgi- 
ca proposicional y utilizando la inferencia proposicional. La siguiente secciôn nos 
muestra un atajo que es obvio, ir hacia los métodos de inferencia que manipulen direc- 
tamente las sentencias en lôgica de primer orden. 


Réglas de inferencia para cuantifïcadores 

Vamos a comenzar con los cuantifïcadores universales. Suponga que nuestra base de co¬ 
nocimiento contiene el axioma popular que afirma que los reyes que son codiciosos tam- 
bién son malvados. 

Vx Rey{x) a Codiciosolx ) => Malvado{x). 

Enfonces parece bastante permisible inferir cualquiera de las siguientes sentencias: 

Rey(Juan ) a Codicioso{Juan) => Malvado(Juan). 

Rey{Ricardo) a Codicioso(Ricardo) => Malvado(Ricardo). 

Rey(Padre{Juan)) a Codicioso(Padre(Juan )) => Malvado(Padre(Juan )). 


especificaciôn La régla de la Especifîcaciôn Universal (EU para abreviar) dice que podemos inferir cual- 

quier sentencia obtenida por sustituciôn de la variable por un término base (un término 
sin variables) 1 . Para anotar la régla de inferencia formalmente utilizamos el concepto de 
sustituciôn que se introdujo en el Apartado 8.3. Vamos a denotar el resultado de aplicar 
una sustituciôn d a una sentencia a mediante Sust(0, a). Entonces la régla se escribe 

Vv a 

SuST({v/g}, a) 


para cualquier variable v y término base g. Por ejemplo, las très sentencias mostradas 
anteriormente se obtienen con las sustituciones {x/Juan}, {x/Ricardo}, y {x/Padre(Juan)}. 
especificaciôn La correspondante régla de Especificaciôn Existencial para el cuantificador exis- 

tencial es ligeramente mas complicada. Para cualquier sentencia a, variable v, y simbolo 
de constante k que no aparezca en ninguna otra parte de la base de conocimiento, 

3v a 

Sust({v/£}, a) 


1 No confunda estas sustituciones con las interpretaciones ampliadas utilizadas para définir la semântica de 
los cuantifïcadores. La sustituciôn reemplaza una variable por un término (una pieza de la sintaxis) para pro- 
ducir una nueva sentencia, mientras que una interpretaciôn es una aplicaciôn de una variable a un objeto del 
dominio de discurso. 








INFERENCIA EN LÔGICA DE PRIMER ORDEN 311 


Por ejemplo, la sentencia 

3x Corona(x) a SobreCabezaix, Juan) 


podemos inferir la sentencia 


CONSTANTE DE 
SKOLEM 


EQUIVALENCE 

INFERENCIAL 


Corona(C x ) a SobreCabeza(C v Juan) 

mientras que Cj no aparezca en ningün otro sitio de la base de conocimiento. Bâsica- 
mente, la sentencia existencial nos dice que hay algün objeto que satisface una condi- 
cion, y el proceso de especificacion tan solo le da un nombre a dicho objeto. Naturalmente, 
ese nombre no puede pertenecer a otro objeto previamente. Las matemâticas nos pro- 
porcionan un delicioso ejemplo: suponga que descubrimos que hay un nümero que es 
un poco mayor que 2,71828 y que satisface la ecuacion d(x y )/dy = x y para x. Le pode¬ 
mos dar a dicho nümero un nombre, como e, pero séria un error darle el nombre de un 
objeto ya existente, como 77. En logica, a este nuevo nombre se le denomina constante 
de Skolent. La Especificacion Existencial es un caso especial del proceso mas general 
llamado skolemizaciôn, que trataremos en el Apartado 9.5. 

Asr como es mas complicada que la Especificacion Universal, la Especificacion Exis¬ 
tencial représenta un papel algo diferente en la inferencia. Mientras que la Especificacion 
Universal se puede aplicar muchas veces para producrr muchas consecuencias diferentes, 
la Especificacion Existencial solo se puede aplicar una vez, y enfonces se puede descartar 
la sentencia cuantificada existencialmente. Por ejemplo, una vez que hemos anadido la sen¬ 
tencia Mata(Asesino, Vîctima ), ya no necesitamos mas la sentencia 3x Mata(x, Vîctima). 
Hablando de forma estricta, la nueva base de conocimiento no es équivalente lôgicamen- 
te a la antigua, pero se puede demostrar que es équivalente inferencialmente en el sen- 
tido que es satisfacible justamente cuando lo es la base de conocimiento original. 


Reducciôn a la inferencia proposicional 

Una vez que tenemos las réglas para inferir sentencias no cuantificadas a partir de sentencias 
cuantificadas, nos es posible reducir la inferencia de primer orden a la inferencia proposicional. 
En esta seccion daremos las principales ideas; los detalles se verân en el Apartado 9.5. 

La primera idea consiste en que como una sentencia cuantificada existencialmente 
se puede sustituir por una especificacion, una sentencia cuantificada existencialmente se 
puede sustituir por el conjunto de todas las especificaciones posibles. Por ejemplo, su¬ 
ponga que nuestra base de conocimiento contiene tan solo las sentencias 

Vx Rey(x) a Codicioso(x) => Malvado(x) 

Rey(Juan) 

Codicioso(Juan) (9-1) 

HermanoîRicardo, Juan) 

Enfonces aplicamos la EU a la primera sentencia, utilizando todas las sustituciones de 
términos base posibles, tomadas del vocabulario de la base de conocimiento, en este caso 
{x/Juan} y {x/Ricardo}. Obtenemos 

Rey(Juan) a Codicioso(Juan) => Malvado(Juan), 

Rey{Ricardo) a Codicioso(Ricardo) => Malvado(Ricardo), 
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PROPOSICIONAUZACIÔN 



y descartamos la sentencia cuantificada universalmente. Ahora, la base de conocimien- 
to es esencialmente proposicional, si vemos las sentencias atômicas base (Rey(Juan), Co- 
dicioso{Juan), etc.) como sûnbolos proposicionales. Por tanto, podemos aplicar cualquiera 
de los algoritmos proposicionales completos del Capitulo 7, para obtener conclusiones 
como Malvado(Juan). 

Esta técnica de proposicionalizaciôn se puede hacer que sea completamente gene¬ 
ral, tal como mostraremos en el Apartado 9.5; es decir, toda base de conocimiento, y pe- 
ticiôn, en lôgica de primer orden se puede transformar a forma proposicional de tal manera 
que se mantenga la relaciôn de implicacion. De este modo, tenemos un procedimiento 
de decision compléta para la implicacion... o quizâ no. Hay un problema: jcuando la 
base de conocimiento incluye un simbolo de funciôn, el conjunto de sustituciones de los 
términos base es infinito! Por ejemplo, si la base de conocimiento tiene el simbolo Pa- 
dre, entonces se pueden construir términos anidados infinitamente, como PadreiPa- 
dre(Padre(Juan))). Nuestros algoritmos proposicionales tendrian sérias dificultades con 
tal conjunto de sentencias infinitamente grande. 

Afortunadamente, hay un famoso teorema de Jacques Herbrand (1930) que dice que 
si una sentencia se implica de una base de conocimiento de primer orden, entonces hay 
una demostracion que involucra tan solo a un subconjunto finito de la base de conocimiento 
transformada a proposicional. Ya que cada subconjunto de este tipo tiene un mâximo de 
profundidad en la anidaciôn de sus términos base, podemos encontrar el subconjunto ge- 
nerando primero todas las especificaciones al nivel de los sûnbolos de constante ( Ricar- 
do y Juan), luego con el nivel siguiente de profundidad, o profundidad 1, (Padre(Ricardo) 
y Padre{Juan), luego con los de nivel de profundidad 2, etc., hasta que seamos capaces 
de construir una demostracion proposicional de la sentencia implicada. 

Hemos esbozado un enfoque de inferencia en lôgica de primer orden mediante la pro¬ 
posicionalizaciôn que es compléta, es decir, cualquier sentencia implicada se puede de- 
mostrar. Esto es un importante logro, dado que el espacio de los modelos posibles es 
infinito. Por otro lado, ;no podemos saber que la sentencia se implica hasta que la de- 
mostraciôn se ha realizado! / ; Qué ocurre cuando la sentencia no se implica? ^Podemos 
decir algo? Bueno, en lôgica de primer orden, résulta que no podemos. Nuestro proce¬ 
dimiento de demostracion podria continuar, generando mas y mas términos profunda- 
mente anidados, pero no sabremos si se ha atascado en un bucle inütil o si la demostracion 
esta a punto de acabar. Algo que se parece mucho al problema de la parada en las mâ- 
quinas de Turing. Alan Turing (1936) y Alonzo Church (1936) demostraron, mediante 
caminos mas bien diferentes, lo inévitable de este tipo de cosas. El problema de la im¬ 
plication en lôgica de primer orden es semidecidible, es decir, existen algoritmos que 
responden afirmativamente para cada sentencia implicada, pero no existe ningûn al- 
goritmo que también responda ante una sentencia no implicada. 


9.2 Unifïcaciôn y sustitucion 


La secciôn anterior describia como la comprensiôn de la inferencia en lôgica de primer 
orden parte de los inicios de los 60. El lector observador (y seguramente los lôgicos com- 
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MODUSPONENS 
GENERALIZADO 


putacionales de los inicios de los 60) se habrâ dado cuenta de que el enfoque de la pro- 
posicionalizaciôn es mas bien ineficiente. Por ejemplo, dada la peticiôn Malvado{x ) y 
la base de conocimiento de la Ecuaciôn (9.1) parece algo obstinado generar sentencias 
como Rey(Juan) a Codicioso{Juan ) => Malvado(Juan). Sin embargo, la inferencia de 
Malvado(Juan) a partir de las sentencias 

Vx Rey(x ) a Codicioso(x) => Malvado(x) 

Rey (Juan) 

Codicioso(Juan) 

parece completamente obvio para un ser humano. Ahora mostraremos como hacerlo com- 
pletamente obvio para un computador. 


Una régla de inferencia de primer orden 

La inferencia de que Juan es malvado se obtiene de la siguiente manera: encontrar un x 
tal que x sea rey y x sea codicioso, y entonces inferir que ese x es malvado. De forma 
mas general, si hay alguna sustitucion 9 que haga que las premisas de la implicaciôn sean 
idénticas a algunas de las sentencias que ya estân en la base de conocimiento, entonces 
podemos asertar la conclusion de la implicaciôn, después de aplicar 9. En este caso, la 
sustitucion {xlJuan} logra ese objetivo. 

En realidad podemos hacer que el paso de inferencia aün trabaje mas. Suponga que 
en vez de conocer Codicioso{Juan), sabemos que todo el mundo es codicioso: 

Vv Codiciosoiy ) (9.2) 

entonces también serfamos capaces de concluir que Malvado(Juan), porque sabemos que 
Juan es un rey (dado) y que Juan es codicioso (porque todo el mundo lo es). Lo que ne- 
cesitamos para este trabajo es encontrar una sustitucion para las variables en la senten- 
cia de implicaciôn y las variables de las sentencias que se deben emparejar. En este caso, 
aplicando la sustitucion {x/ Juan, y!Juan} a las premisas de la implicaciôn Rey{x) y Co- 
dicioso(x) y a las sentencias de la base de conocimiento Rey{Juan) y Codiciosoiy ) las 
harâ idénticas. De este modo podemos inferir la conclusion de la implicaciôn. 

Este proceso de inferencia se puede plasmar mediante una ünica régla de inferencia 
a la que llamamos Modus Ponens Generalizado: para las sentencias atômicas p t , p' , y 
q, donde hay una sustitucion 9 tal que Sust(0, p /) = Sust( d, p,), para todo i, 

/V,p 2 ', ...,p„',(p 1 a/z 2 a ... a p„=><?) 

Sust(0, q) 

Hay n + 1 premisas para esta régla: las n p' sentencias atômicas y la implicaciôn. La 
conclusion es el resultado de aplicar la sustitucion 9 al consecuente q. En nuestro 
ejemplo: 

pj es ReyiJuan) p 1 es Rey(x) 

p 2 ' es Codiciosoiy ) p 2 es Codicioso(x ) 

9 es {x/Juan, ylJuan} q es Malvado(x ) 

Sust(0, q) es MaIvado(Juan) 
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ELEVACIÔN 


UNIFICACIÔN 
UN IFICADO R 


Es fâcil demostrar que el Modus Ponens Generalizado es una régla de inferencia sôli- 
da. Primero, observamos que cualquier sentencia p (cuyas variables asumimos que es- 
tân cuantificadas universalmente) y para cualquier sustitucion 8, 

p |= Sust(0, p) 

Esto se sostiene sobre los mismos fundamentos de la Especificaciôn Universal. Y se sos- 
tiene en concreto para una sustitucion 8 que satisfaga las condiciones de la régla del Mo¬ 
dus Ponens Generalizado. De este modo, de p, ', ...,p n ' podemos inferir 

SUST(0,p/) A ... a Sust (8,p n ') 

y de la implicacion p x a p 2 a ... a p n => q podemos inferir 

Sust(0, pj) a ... a Sust(0, p n ) => Sust (6, q) 

Ahora bien, 8 se define en el Modus Ponenes Generalizado como Sust( 8, p') = Sust( 8, 
p,), para todo /; por lo tanto la primera sentencia se empareja exactamente con la pre- 
misa de la segunda. De aqui, que Sust(0, q) se siga del Modus Ponens. 

El Modus Ponens Generalizado es una version elevada del Modus Ponens: érigé el 
Modus Ponens proposicional a la lôgica de primer orden. En lo que queda del capitulo 
veremos que podemos desarrollar versiones elevadas del encadenamiento hacia delan- 
te, del encadenamiento hacia atrâs, y de los algoritmos de resoluciôn que se introduje- 
ron en el Capitulo 7. La ventaja clave de las réglas de inferencia elevadas sobre la 
proposicionalizaciôn es que solo realizan aquellas sustituciones que se necesitan para 
permitir avanzar a las inferencias. Un tema potencialmente confuso es que uno percibe 
que el Modus Ponens Generalizado es menos general que el Modus Ponens (Apartado 
7.5): el Modus Ponens reconoce cualquier a atômica que esté en el lado izquierdo de la 
implicacion, mientras que el Modus Ponens Generalizado necesita un formata especial 
para esta sentencia. La régla es generalizada en el sentido de que permite trabajar con 
cualquier numéro de P '. 


Unificaciôn 

Las réglas de inferencia elevadas necesitan encontrar las sustituciones que hacen que 
expresiones lôgicas diferentes se hagan idénticas. Este proceso se denomina unifica¬ 
ciôn y es el componente clave de todos los algoritmos de inferencia en lôgica de pri¬ 
mer orden. El algoritmo Unifica toma dos sentencias y devuelve un unificador para 
ellas, si éste existe: 

Unifica(p, q) = 6 don de Sust (8, p) = Sust (8, q). 

Vamos a ver algunos ejemplos de como se comportaria Unifica. Suponga que tenemos 
unapeticiôn Conoce(Juan, x): / ; a quién conoce Juan? Algunas respuestas a esta pregunta 
se pueden hallar encontrando todas las sentencias de la base de conocimiento que se uni- 
fiquen con ConoceÇJuan, x). Aqui tenemos los resultados de la unificaciôn con cuatro 
sentencias distintas que podrian estar en la base de conocimiento. 
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ESTANDARIZACIÔN DE 
VARIABLES 


UNIFICADOR MAS 
GENERAL 


COMPROBACION DE 
OCURRENCIAS 


Unifica {Conoce{Juan, x ), Conoce(Juan, Juana )) = {x/Juana} 
\JmFicA(Conoce(Juan, x), Conoceiy, Guillermo )) = {Guillermo, y/Juan} 

Unifica {Conoce{Juan, x), Conoce (y, Madre(y)) ) = {y!Juan , x/Madre(Juan) } 

U K\Y\cx(Conoce(Juan, x), Conoce(x, Elisabet)) — fallo. 

La ültima unificaciôn falla porque x no puede tomar los valores Juan y Elisabet al mis- 
mo tiempo. Ahora, recuerda que Conoce(x, Elisabet ) significa «Todo el mundo conoce 
a Elisabet», por tanto, serfamos capaces de inferir que Juan conoce a Elisabet. El pro- 
blema se présenta solo cuando las dos sentencias tienen que utilizar el mismo nombre 
de variable, x. Este problema se puede evitar utilizando la estandarizaciôn de las va¬ 
riables de las sentencias que van a ser unificadas, que consiste en renombrar sus varia¬ 
bles para evitar conflictos de nombre. Por ejemplo, podemos renombrar la x de Conoce(x, 
Elisabet ) por z I7 (un nuevo nombre de variable) sin tener que cambiar su significado. Aho¬ 
ra la unificaciôn tendra éxito: 

\JmFiCA(Conoce(Juan, x), Conoce(z tl , Elisabet)) = {x/Elisabet, z n /Juan} 

El Ejercicio 9.7 ahonda mas en la necesidad de la estandarizaciôn de variables. 

Hay una complicaciôn mas: decimos que Unifica deberia devolver una sustituciôn 
que hace que dos argumentas sean idénticos. Pero podrfa haber mas de un unificador. 
Por ejemplo, Unifica {Conoce{Juan, x), Conoceiy, z)) podria devolver {y/Juan, x/z} o 
{y/Juan, x/Juan, z/Juan}. El primer unificador nos da Conoce{Juan, z) como resultado 
de la unificaciôn, mientras que el segundo nos da Conoce(Juan, Juan)', decimos que el 
primer unificador es mas general que el segundo, porque coloca menos restricciones so¬ 
bre los valores de las variables. Résulta que, para cada par de expresiones unificable hay 
un unificador mas general (o UMG) que es ünico respecta al renombramiento de las 
variables. En este caso {y/Juan, x/z}. 

En la Figura 9.1 se muestra un algoritmo para obtener el unificador mas general. El 
proceso es muy sencillo: el algoritmo explora recursivamente las dos expresiones «de 
lado a lado», acumulando un unificador durante el proceso, pero falla si dos posiciones 
de las dos estructuras que se corresponden no emparejan. Hay un paso en el proceso que 
es costoso: cuando al intentar emparejar una variable con un término complejo, se debe 
comprobar si la propia variable ya pertenece al término; y si es asi, el emparejamiento 
falla porque no se puede generar un unificador consistente. Este proceso, denominado 
comprobaciôn de ocurrencias, hace que la complejidad del algoritmo sea cuadrâtica 
respecto al tamano de las expresiones que se van a unificar. Algunos sistemas, inclui- 
dos todos los sistemas de programaciôn lôgica, simplemente omiten este proceso por lo 
que algunas veces obtienen como resultado inferencias inconsistentes; otros sistemas uti- 
lizan algoritmos mas complejos que presentan una complejidad temporal de tipo lineal. 

Almacenamiento y recuperaciôn 

Por debajo de las funciones Decir y Preguntar, utilizadas para informar o interro- 
gar a la base de conocimiento, estân las funciones primitivas Almacenar y Buscar. 
Almacenar ( 5 ) guarda una sentencia s en la base de conocimiento, y BuscarL/J de- 
vuelve todos los unificadores que unifican la peticiôn q con alguna sentencia de la base 
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funciôn Unifica(x, y, 9) devuelve una sustituciôn que hace x e y idénticas 
entradas: x, una variable, constante, lista, o expresion compuesta 
y, una variable, constante, lista, o expresion compuesta 
9, la sustituciôn construida hasta ahora (opcional, por defecto esta vacia) 

si 9 = fallo entonces devolver fallo 
sino si x = y entonces devolver 9 

sino si £Variable?(x) entonces devolver Unifica-Var(x, y, 9) 
sino si ^Variable?( y) entonces devolver Unifica-Var(j, x, 9) 
sino si Ex p-C( ) m p u esta ? (x) y E x t> - C o vi pu F, s ta ? (y ) entonces 
devolver Unifica(Args[x], ArgsUI- Unifica(Op[x], Op[y], 9)) 
sino si ^Lista?(x) y ( ; i LiSTA?(y) entonces 

devolver Unifica(Rest[x], Rest[j], Unifica(Primero[x], PrimeroIj], 9)) 
sino devolver fallo 


Funciôn Unifica-Var(v< 2 /-, x, 9) devuelve una sustituciôn 
Entradas: var, una variable 
x, una expresion 

0 , la sustituciôn construida hasta ahora 

si {var/val] g 9 entonces devolver Unifica(vû/, x, 9) 
sino si {xlval} g 9 entonces devolver Unifica(iw, val, 9) 
sino si £CoMPRUEBA-Oc?(var, x) entonces devolver fallo 
sino devolver anadir { var/x} a 9 


Figura 9.1 El algoritmo de unificaciôn. El algoritmo trabaja mediante la comparaciôn, elemen- 
to a elemento, de las expresiones de entrada. La sustituciôn 9, que es el argumento de Unifica, se 
va construyendo a lo largo de todo el proceso y se utiliza para asegurar que las comparaciones pos- 
teriores sean consistentes con las ligaduras que previamente se han establecido. En una expresion 
compuesta, como F(A, B), la funciôn Op selecciona el simbolo de funciôn F, y la funciôn Args se- 
lecciona la lista de argumentos ( A, B). 


INDEXANDO 

INDEXACION DE 
PREDICADOS 


de conocimiento. El problema que hemos utilizado para ilustrar la unificaciôn (en- 
contrando todos los hechos que se unifican con Conoce{Juan, x)) es una instancia de 
BusCAndo. 

La forma mas sencilla de implementar Almacenar y Buscar consiste en mantener 
todos los hechos en la base de conocimiento mediante una lista larga; entonces, dada una 
peticiôn q, se llama a UnificaO/, s) con cada sentencia s de la lista. Este proceso es 
ineficiente, pero trabaja bien, y es todo lo que necesita entender para el resto del capi- 
tulo. Lo que queda de esta secciôn da una idea general de los mecanismos para realizar 
la recuperaciôn de forma mas eficiente, y por lo tanto, en una primera lectura se lo pue- 
de saltar. 

Podemos Buscar de forma mas eficiente asegurândonos de que las unificaciones solo 
se intenten con las sentencias que tienen alguna oportunidad de unificarse. Por ejem- 
plo, no hay ninguna posiciôn que pueda unificar Conoce{Juan, x) y Hermano{Ricardo, 
Juan). Podemos evitar este tipo de unificaciones indexando los hechos en la base de co¬ 
nocimiento. Un sencillo programa, denominado indexaciôn de predicados, coloca to- 
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dos los hechos Conoce en un cajôn y todos los hechos Hermano en otro. Los cajones se 
pueden almacenar en una tabla hash 2 para obtener un acceso mas eficiente. 

La indexaciôn de predicados es ütil cuando hay muchos simbolos de predicado pero 
solo unas pocas clâusulas por cada sfmbolo. En algunas aplicaciones, hay muchas clâusu- 
las para un sfmbolo de predicado dado. Por ejemplo, suponga que las entidades de recauda- 
ciôn de impuestos quieren guardar la pista de quién contrata a quién, utilizando el predicado 
Contrata(x, y). Esto generarfa un cajôn muy grande con quizâ millones de contratantes y 
decenas de millones de contratados. Y por tanto, responder a una peticiôn como Contra- 
ta(x, Ricardo ) mediante la indexaciôn de predicados requeriria recorrer el cajôn entero. 

Para esta peticiôn en concreto, séria de ayuda que los hechos estuvieran indexados 
tanto por el predicado como por su segundo argumento, quizâs utilizando una tabla hash 
de claves combinadas. Enfonces podriamos simplemente construir la clave para la peti¬ 
ciôn y recuperar exactamente aquellos hechos que se unifican con la peticiôn. Para otras 
peticiones, taies como Contrata(AIMA.org, y), necesitariamos haber indexado los hechos 
combinando el predicado con el primer argumento. Por lo tanto, los hechos se pueden 
almacenar bajo mültiples claves, haciéndolos accesibles instantâneamente a las diferentes 
peticiones con las que se podrian unificar. 

Dada una sentencia a almacenar, es posible construir los indices para todas las po- 
sibles peticiones que se unifican con ella. Para el hecho ContraralAlMA.org , Ricardo), 
las peticiones son 


RETÎCULO DE 
SUBSUNCIÔN 


Contrata{AIMA.org, Ricardo) ^Contrata AIMA a Ricardo? 

Contrata(x, Ricardo) / ; Quién contrata a Ricardo? 

Contrata(AIMA.org, y) {A quién contrata AIMA.org? 

Contrata(x, y) / ; Quién contrata a quién? 

Estas peticiones forman un reticulo de subsunciôn, tal como se muestra en la Figura 
9.2(a). El reticulo tiene algunas propiedades interesantes. Por ejemplo, el hijo de cual- 
quier nodo del reticulo se obtiene de su padre mediante una subsunciôn ünica; y el des¬ 
cendante comün «mas alto» de dos nodos cualesquiera es el resultado de aplicar su 
unificador mas general. La porciôn del reticulo por encima de cualquier hecho base se 
puede construir sistemâticamente (Ejercicio 9.5). Una sentencia con constantes repeti- 
das tiene un reticulo algo diferente, tal como se muestra en la Figura 9.2(b). Los sim- 
bolos de funciôn y las variables en las sentencias a que pueden ser almacenadas aün 
generan estructuras de reticulos mas interesantes. 

El programa que hemos descrito trabaja muy bien siempre que el reticulo contenga un 
numéro pequeno de nodos. Para un predicado con n argumentos, el reticulo contiene 0(2") 
nodos. Si se permiten los simbolos de funciôn el numéro de nodos enfonces es exponencial 
respecto al numéro de términos de la sentencia a almacenar. Esto nos puede conducir a un 
numéro inmenso de indices. En algün punto, los beneficios de la indexaciôn son superados 
por los costes de almacenar y mantener todos los indices. Podemos responder adoptando una 
politica fija, tal como mantener solo los indices de las claves compuestas por un predicado 


2 

Una tabla hash es una estructura de datos para almacenar y recuperar informaciôn indexada mediante cla¬ 
ves fljas. Por motivos prâcticos, se puede considerar que una tabla hash tiene tiempos constantes de alma- 
cenamiento y recuperaciôn, aun cuando la tabla contenga un numéro enorme de elementos. 
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Emplea(x,y ) 

Emplea{x,y ) 

Emplea{x,Ricardo) EmpleaiAIMA.org, y) Emplea{xjuan) 

Emplea{xjc) Emplea(Juan,y) 

Emplea(AIMA.org,Ricardo) 

Emplea(JuanJuan ) 

(a) 

(b) 

Figura 9.2 (a) El réticule» de subsuncion cuyo nodo mas bajo 

es la sentencia Contrata(AIMA.org, 

Ricardo). (b) El retfculo de subsuncion para la sentencia Emplea(Juan, Juan). 


y cada uno de sus argumentos, o utilizando una podtica adaptativa que généré indices que 
respondan a las demandas de los tipos de peticiones que se desean realizar. En muchos sis- 
temas de IA, el numéro de los hechos que se almacenan es lo suficientemente pequeno de 
manera que la indexaciôn eficiente se considéra un problema resuelto. En las bases de da¬ 
tas industriales y comerciales, el problema ha recibido un desarrollo tecnolôgico sustancial. 


9.3 Encadenamiento hacia delante 


En el Apartado 7.5 se dio un algoritmo de encadenamiento hacia delante para clâusu- 
las positivas proposicionales. La idea es simple: comenzar a partir de las sentencias atô- 
micas de la base de conocimiento y aplicar el Modus Ponens hacia delante, anadiendo 
las sentencias atômicas nuevas hasta que no se puedan realizar mas inferencias. Aquf 
explicamos como se puede aplicar el algoritmo a las clâusulas positivas de primer or- 
den, y como se puede implementar eficientemente. Las clâusulas positivas como Si¬ 
tuation => Respuesta son especialmente ütiles para los sistemas que realizan inferencias 
en respuesta a information nueva que se ha recibido. Muchos sistemas se pueden défi¬ 
nir de esta manera, y el razonamiento hacia delante puede ser mucho mas eficiente que 
la resoluciôn aplicada a la demostraciôn de problemas. Por lo tanto, a menudo vale la 
pena intentar construir una base de conocimiento tan solo con clâusulas positivas de tal 
manera que se évité el coste de aplicar la resoluciôn. 

Clâusulas positivas de primer orden 

Las clâusulas positivas de primer orden se parecen bastante a las clâusulas positivas pro¬ 
posicionales (Apartado 7.5): éstas son disyunciones de literales de los cuales solo uno 
es positivo. Una clâusula positiva es atômica o es una implicaciôn cuyo antecedente es 
una conjunciôn de literales positivos y cuyo consecuente es un ünico literal positivo. Las 
siguientes son clâsusulas positivas de primer orden: 

Rey(x) a Codiciosoix ) => Malvado(x) 

Rey(Juan) 

Codicioso(y ) 
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Diferentes a los literales proposicionales, los literales de primer orden pueden contener 
variables, en cuyo caso se asume que dichas variables estân cuantificadas universalmente. 
(Lo tipico es que omitamos los cuantificadores universales cuando escribamos clâusu- 
las positivas.) Las clâusulas positivas son una forma normal muy adecuada para utili- 
zarla con el Modus Ponens Generalizado. 

No se pueden convertir todas las bases de conocimiento a un conjunto de clâusulas 
positivas, por la restriccion de un ünico literal positivo, pero muchas si se pueden trans¬ 
formai Considéré el siguiente problema: 

La ley dice que es un crimen para un americano vender armas a paises hostiles. El pais 
de Nono, un enemigo de América, tiene algunos misiles, y todos sus misiles fueron ven- 
didos por el Coronel West, que es americano. 

Demostraremos que West es un criminal. Primera, representaremos estos hechos mediante 
clâusulas positivas de primer orden. La siguiente seccion mostrarâ como el encadena- 
miento hacia delante resuelve este problema. 

«... es un crimen para un americano vender armas a paises hostiles»: 

Americano(x ) a Arma(y) a Vende(x, y, z) a Hostil(z) => Criminal(x ) (9.3) 

«Nono .. .tiene algunos misiles.» La sentencia 3x Tiene(Nono, x) a Misil{x) se transfor¬ 
ma en dos clâusulas positivas mediante la Eliminacion del Existencial, introduciendo la 
nueva constante M x : 

Tiene(Nono, M x ) 

Misil(M x ) 

«Todos los misiles le (a Nono) fueron vendidos por el coronel West»: 


Misil(x) a Tiene(Nono, x) => Vende {West, x, Nono) (9.6) 

También necesitamos saber que los misiles son armas: 

Misil{x) => Arma(x) (9.7) 

Y necesitamos saber que un enemigo de América es un pais «hostil»: 

Enemigo(x, América ) => Hostil(x ) (9.8) 

«West, que es Americano...»: 

Americano(West ) (9.9) 

«El pais Nono, un enemigo de América...»: 

Enemigo{Nono, América) (9.10) 


Esta base de conocimiento no contiene simbolos de funcion y es por lo tanto una ins- 
tancia de la clase de bases de conocimiento de Datalog, es decir, conjuntos de clâusu¬ 
las positivas de primer orden sin simbolos de funcion. Veremos que la ausencia de los 
simbolos de funcion hace mucho mâs fâcil la inferencia. 


(9.4) 

(9.5) 


DATALOG 
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RENOMBRAR 

VARIABLES 


Un algoritmo sencillo de encadenamiento hacia delante 

El primer algoritmo de encadenamiento hacia delante que consideraremos es uno muy 
sencillo, tal como se muestra en la Figura 9.3. Comenzando con los hechos conoci- 
dos, el proceso dispara todas las réglas cuyas premisas se satisfacen, anadiendo sus 
conclusiones al conjunto de hechos conocidos. El proceso se va repitiendo hasta que 
la peticion es respondida (asumiendo que solo se requiere una respuesta) o no se pue- 
den anadir mas hechos. Fijese en que un hecho no es «nuevo», solo es el renombra- 
miento de un hecho conocido. Una sentencia es el renombramiento de otra si son 
idénticas excepto en los nombres de las variables. Por ejemplo, Gusta(x, Helado) y Gus- 
ta(y, Helado ) son renombramientos cada una de la otra porque solo se diferencian en 
la eleccion de x o de y; sus significados son el mismo: a todo el mundo le gusta el he¬ 
lado. 

Utilizaremos nuestro problema sobre el crimen para ilustrar como funciona Pre- 
GUNTA-EHD-Lpo. Las sentencias de implicacion son (9.3), (9.6), (9.7) y (9.8). Se nece- 
sitan dos iteraciones: 

• En la primera iteracion, la régla (9.3) no tiene las premisas satisfechas. 

La régla (9.6) se satisface con {x/M, }, y se anade Vende{West, M v Nono). 

La régla (9.7) se satisface con {x/M,}, y se anade Arma{M x ). 

La régla (9.8) se satisface con {x/Nono}, y se anade Hostil{Nono). 

• En la segunda iteracion, la régla (9.3) se satisface con {x/West, y/M v z/Nono}, y 
se anade Criminal(West). 


funciôn Pregunta-EHD-Lpo(BC, a) devuelve una sustitucion o falso 

entradas: BC, la base de conocimiento, un conjunto de clâusulas positivas de primer orden 
a, la peticion, una sentencia atomica 

variables locales: nuevas, las nuevas sentencias inferidas en cada iteracion 

repetir hasta nuevo esta vacfo 
nuevo <— { } 

para cada sentencia r en BC hacer 

(P[ A ... A p n => q) <— ESTANDARIZAR-VAR(r) 
para cada 0 tal que Sust( 0, p, a ... a p„) = Sust(Pj a ... a p^) 
para algünpj ... p' n en BC 
q' <r- Sust(0, q) 

si q' no es el renombramiento de una sentencia de BC o nuevo entonces hacer 
anadir q' a nuevo 
cj) <— Unifica(p', a) 
si <f> no es fallo entonces devolver <f> 
anadir nuevo a BC 
devolver falso 


Figura 9.3 Un algoritmo de encadenamiento hacia delante, conceptualmente sencillo, pero muy 
ineficiente. En cada iteracion anade a la BC todas las sentencias atômicas que se pueden inferir 
en un paso, a partir de las sentencias de implicacion y las sentencias atômicas ya présentes en la 
BC. 
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Criminal(West) 




Arma(M { ) 

Vende(West,M\ flono) 

Hostil(Nono) 



AmericanoÇWest) Misil(M{) 

Tiene{Nono,M\) 

Enemigo(Nono,América) 


Figura 9.4 El ârbol de demostracion generado por el encadenamiento hacia delante en el ejem- 
plo del crimen. Los hechos iniciales aparecen en el nivel inferior, los hechos inferidos en la pri¬ 
mera iteracion aparecen en el nivel intermedio, y los hechos inferidos en la segunda iteraciôn 
aparecen en el nivel superior. 


La Figura 9.4 muestra el ârbol de demostracion que se ha generado. Fijese en que las 
nuevas inferencias son posibles en este punto porque cada sentencia que podia concluirse 
mediante el encadenamiento hacia delante ya esta contenida explicitamente en la BC. 
Este tipo de base de conocimiento se dice que tiene un proceso de inferencia de punto 
fijo. Los puntos fijos hallados con las clâusulas positivas de primer orden son similares 
a aquellas que se hallan en el encadenamiento hacia delante proposicional (Apartado 7.5); 
la principal diferencia es que el punto fijo de primer orden puede incluir sentencias atô- 
micas cuantificadas universalmente. 

Es fâcil analizar el algoritmo Pregunta-EHD-Lpo. Primero, es un algoritmo sôli- 
do, porque cada inferencia es justo una aplicacion del Modus Ponens Generalizado, que 
es sôlida. Segundo, es completo para las bases de conocimiento con clâusulas positivas; 
es decir, responde cada peticiôn cuyas respuestas se implican de cada base de conoci¬ 
miento con clâusulas positivas. En las bases de conocimiento Datalog, que no contie- 
nen simbolos de funcion, la demostracion de su completitud es bastante fâcil. 
Comenzamos contando el numéro de los posibles hechos que pueden ser anadidos, lo 
que détermina el nümero mâximo de iteraciones. Siendo k la aridad mâxima (nümero 
de argumentos) de cada predicado, p el nümero de predicados, y n el nümero de sim¬ 
bolos de constante. Estâ claro que no puede haber mâs de pn k hechos base, asi que des- 
pués de estas muchas iteraciones el algoritmo debe encontrar un punto fijo. Enfonces 
podemos construir un argumento muy similar a la demostracion de la completitud en el 
encadenamiento hacia delante proposicional (Apartado 7.5). Los detalles acerca de la 
transicion de la completitud proposicional a la de primer orden se dan en el algoritmo 
de resolucion del Apartado 9.5. 

Con las clâusulas positivas que contienen simbolos de funcion, Pregunta-EHD-Lpo 
puede generar muchos hechos nuevos infinitamente, por lo que necesitamos tener mu- 
cho cuidado. Para el caso en el que una respuesta se implica para la sentencia de peti- 
cion q, debemos recurrir al teorema de Herbrand para establecer que el algoritmo 
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EMPAREJAMIENTO DE 
PATRONES 


ORDENACIÔN DE 
CONJUNTORES 


encontrarâ una demostraciôn. (Véuse el Apartado 9.5 para el caso de la resoluciôn.) Si 
la peticiôn no tiene respuesta, el algoritmo podria fallar y terminar en algunos casos. Por 
ejemplo, si la base de conocimiento incluye los axiomas de Peano 

NumNat( 0) 

V/7 NumNat(n) => NumNat(S(n)) 

entonces el encadenamiento hacia delante anade NumNat(S(0)), NumNat(S(S(0))), Num- 
Nat(S(S(S(0)))), etc. Este problema en general es inévitable. Igual que con la lôgica de 
primer orden general, la implicaciôn con clâusulas positivas es semidecidible. 


Encadenamiento hacia delante efïciente 

El algoritmo de encadenamiento hacia delante de la Figura 9.3 esta disenado mas bien 
para facilitar su comprensiôn que para que sea eficiente en su ejecuciôn. Hay très fuen- 
tes de complejidad posibles. Primera, el «bucle intemo» del algoritmo requiere que se 
encuentren todos los unificadores posibles de manera que la premisa se unifique con 
un conjunto adecuado de hechos de la base de conocimiento. A este proceso, a menu- 
do se le denomina emparejamiento de patrones y puede ser muy costoso. Segundo, 
el algoritmo vuelve a comprobar cada régla en cada iteracion para ver si sus premisas 
se satisfacen, incluso cuando se han realizado muy pocas adiciones a la base de cono¬ 
cimiento en cada iteracion. Por ültimo, el algoritmo podria generar muchos hechos que 
son irrelevantes para el objetivo. Vamos a abordar cada uno de estos problemas por se- 
parado. 


Emparejar réglas con los hechos conocidos 

El problema de emparejar la premisa de una régla con los hechos de la base de conoci¬ 
miento podria parecer algo bastante sencillo. Por ejemplo, suponga que queremos apli- 
car la régla 

Misil{x) => Arma(x) 

Entonces necesitamos encontrar todos los hechos que se unifican con Misil{x ); en una 
base de conocimiento indexada de forma adecuada, esto se puede realizar en tiempo cons¬ 
tante por cada hecho. Ahora considéré una régla como 

Misil(x) a Tiene(Nono, x) => VendeÇWest, x, Nono). 

Otra vez, podemos encontrar todos los objetos que tiene Nono en un tiempo constante 
por objeto; entonces, por cada objeto, podriamos comprobar si es un misil. Sin embar¬ 
go, si la base de conocimiento tiene muchos objetos en posesiôn de Nono y unos pocos 
misiles, séria mejor encontrar todos los misiles primera y entonces comprobar si son de 
Nono. Este es el problema de la ordenaciôn de los conjuntores: encontrar una orde- 
naciôn para resolver los conjuntores de las premisas de una régla de tal manera que el 
coste se minimice. Résulta que encontrar la ordenaciôn ôptima es un problema NP-duro, 
pero hay buenas heuristicas disponibles. Por ejemplo, la heuristica de la variable mas 
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restringida que se utiliza en los PSR del Capitule 5 sugeriria ordenar los conjuntores 
para ver los misiles antes si hay menos misiles que objetos que pertenezean a Nono. 

La conexiôn entre el emparejamiento de patrones y la satisfacciôn de restricciones 
realmente es muy estrecha. Podemos ver cada conjuntor como una restricciôn sobre las 
variables que contiene, por ejemplo, Misil{x) es una restricciôn unaria sobre la variable 
x. Ampliando esta idea, podemos expresar cada PSR de dominio finito como una ûnica 
clâusula positiva junto a algunos hechos base asociados a ella. Considéré el problema 
del coloreado de un mapa de la Figura 5.1 que se muestra en la Figura 9.5(a). Una for- 
mulaciôn équivalente mediante una clâusula positiva se muestra en la Figura 9.5(b). Esta 
claro que la conclusion Coloreable{ ) se puede inferir solo si el PSR tiene una soluciôn. 
Ya que los PSR en general incluyen a los problemas 3SAT como un caso especial, po¬ 
demos concluir que emparejan una clâusula positiva con un conjunto de hechos es un 
problema NP-duro. 

Podria parecer algo depresivo que el encadenamiento hacia delante tenga un problema 
de emparejamiento NP-duro en su bucle interno. Sin embargo, hay très motivos por los 
cuales animarse: 


• Podemos recordarnos a nosotros mismos que muchas réglas en bases de conoci- 
miento del mundo real son mas bien pequenas y sencillas (como las réglas de nues- 
tro problema del crimen) que grandes y complejas (como las de la formulaciôn del 
PSR de la Figura 9.5). Es algo comün asumir, en las bases de datos sobre el mun¬ 
do, que tanto el tamano de las réglas como las aridades de los predicados estân li- 
mitados por una constante y preocupamos solo por la complejidad de los datos, 
es decir, la complejidad de la inferencia esta en funciôn del nümero de hechos base 
en la base de datos. Es fâcil demostrar que la complejidad de los datos del enca¬ 
denamiento hacia delante es polinômica. 



(a) 


Dif{wa, nt) a Dif {wa, sa) a 
Dif (nt, q) Dif (nt, sa) a 
Dif {q, nsw) a Dif {q, sa) a 
Dif {nsw, v) a Dif {nsw, sa) a 
Dif(v, sa) => Coloreable () 

Dif (Rojo, Azul) Dif{Rojo, Vende) 
Dif {Vende, Rojo) Dif {Vende, Azul) 
Dif {Azul, Rojo) Dif {Azul, Vende) 

(b) 


Figura 9.5 (a) Un grafo de restricciones para colorear el mapa de Australia (el de la Figura 5.1). 

(b) El PSR del coloreado del mapa como una sola clâusula positiva. Fijese en que los dominios de 
las variables se definen implicitamente por las constantes dadas en los hechos base para Dif. 
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• Podemos considerar subclases de réglas para las cuales el emparejamiento sea efi- 
ciente. Esencialmente, cada clâusula Datalog se puede ver como la definiciôn de 
un PSR, as! que el emparejamiento sera tratable solo cuando el correspondiente 
PSR lo sea. El Capitulo 5 describe varias familias tratables de PSR. Por ejemplo, 
si el grafo de restricciones (el grafo cuyos nodos son las variables y cuyos arcos 
son las restricciones) forma un ârbol, entonces el PSR se puede resol ver en tiem- 
po lineal. El mismo resultado se obtiene exactamente con el emparejamiento de 
réglas. Por ejemplo, si eliminamos Sur de Australia del mapa de la Figura 9.5, la 
clâsusula résultante sera 

Dif(wa, nt) a Difint, q) a Dif(q, nsw) a Dif(nsw, v) => Coloreable( ) 

Que se corresponde con el PSR reducido de la Figura 5.11. Los algoritmos para 
resolver los PSR con estructura de ârbol se pueden aplicar de forma directa al pro- 
blema de emparejamiento de réglas. 

• Podemos trabajar duro para eliminar los intentos de emparejamiento de réglas re- 
dundantes en el encadenamiento hacia delante, que es el tema de la siguiente sec- 
ciôn. 



Encadenamiento hacia delante incrémental 

Cuando mostramos como trabaja el encadenamiento hacia delante mediante el ejemplo 
del crimen hicimos trampa; en concreto, omitimos alguno de los emparejamiento de ré¬ 
glas que se muestran en el algoritmo de la Figura 9.3. Por ejemplo, en la segunda itera- 
ciôn, la régla 

Misil(x ) => Arma(x) 

se empareja con Misil(M t ) (otra vez), y desde luego, la conclusion Arma(M l ) ya se co¬ 
noce y por tanto no pasa nada. Este tipo de emparejamientos de réglas redundantes se 
puede evitar si hacemos la siguiente observaciôn: cada hecho nuevo inferido en una ité¬ 
ration t debe ser derivado de al menos un hecho nuevo inferido en la itération t — 1. 
Esto es cierto porque cualquier inferencia que no necesite un hecho nuevo de la itera- 
ciôn t — 1 podia haberse realizado ya en la iteracion t — 1. 

Esta observaciôn nos lleva de forma natural a un algoritmo de encadenamiento ha¬ 
cia delante incrémental, en el que en cada iteracion t comprobamos una régla solo si su 
premisa incluye algün conjuntor p j que se unifique con un hecho p' que se haya inferi¬ 
do en la iteracion t — 1. El paso de emparejamiento de régla fija que p t se empareje con 
pi, pero permite que los otros conjuntores de la régla se emparejen con hechos de cual¬ 
quier iteracion previa. Este algoritmo généra exactamente los mismos hechos en cada 
iteracion que en el algoritmo de la Figura 9.3, pero mucho mas eficientemente. 

Con una indexaciôn adecuada, es fâcil identificar todas las réglas que se pueden dis- 
parar por un hecho dado, y en efecto, muchos sistemas reales operan en un modo de «ac- 
tualizaciôn» en donde el encadenamiento hacia delante ocurre en respuesta a cada nuevo 
hecho que es Dicho al sistema. Las inferencias se generan en cascada a través del con- 
junto de réglas hasta que se encuentra un punto fijo y entonces, el proceso comienza otra 
vez con el siguiente hecho nuevo. 
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Generalmente, solo una pequena fracciôn de las réglas de la base de conocimiento 
es realmente disparada por la adiciôn de un hecho nuevo. Esto significa que se realiza 
una gran cantidad de trabajo redundante en construir emparejamientos parciales repeti- 
damente que tienen algunas de sus premisas insatisfechas. Nuestro ejemplo del crimen 
es mas bien demasiado pequeno como para mostrar esto de forma efectiva, pero fijese 
en que se construye un emparejamiento parcial en la primera iteraciôn entre la régla 

Americano(x) a Arma(y) a VendeÇx, y, z) a Hostiliz) => Criminal(x ) 


RETE 


SISTEMAS DE 
PRODUCCIÔN 


ARQUITECTURAS 

COGNITIVAS 


y el hecho Americano(West) . Este emparejamiento parcial enfonces se descarta y se re- 
construye en la segunda iteraciôn (cuando la régla tiene éxito). Séria mejor retener y com- 
pletar gradualmente el emparejamiento parcial a medida que llegan nuevos hechos, que 
descartarlo. 

El algoritmo rete 3 fue el primero en aplicarse seriamente a este problema. El algo- 
ritmo preprocesa el conjunto de réglas de la base de conocimiento para construir una es- 
pecie de red de flujo de datos en la que cada nodo es un literal de las premisas de la régla. 
Las ligaduras de las variables fluyen a través de la red y se eliminan cuando fallan al em- 
parejar un literal. Si dos literales en una régla comparten una variable (por ejemplo, Ve ri¬ 
de (x, y, z ) a Hostil(z) en el ejemplo del crimen) enfonces las ligaduras de cada literal se 
filtran mediante un nodo de igualdad. Una ligadura de variables que se encuentra con 
un nodo con un literal zz-ario, como Vende(x, y, z ) podria tener que esperar a que se es- 
tablezcan las ligaduras de las otras variables para que el proceso continüe. En un punto 
dado, el estado de una red rete captura todos los emparejamientos parciales de las ré¬ 
glas, evitando una gran cantidad de câlculo. 

Las redes rete, y varias mejoras basadas en ellas, han sido un componente clave de 
los denominados sistemas de producciôn, que fueron de entre los sistemas de encade- 
namiento hacia delante los de uso mas generalizado 4 . El sistema Xcon (originalmente 
llamado RI, McDermott, 1982) se construyô utilizando una arquitectura de sistema de 
producciôn. El Xcon contenia varios miles de réglas para el diseno de configuraciones 
de componentes de computador para los clientes de Digital Equipment Corporation. Fue 
uno de los primeros éxitos comerciales claros en el campo emergente de los sistemas 
expertos. Muchos otros sistemas similares han sido construidos utilizando la misma tec- 
nologia base, que ha sido implementada en el lenguaje de propôsito general Ops-5. 

Los sistemas de producciôn también son populares en las arquitecturas cognitivas, 
es decir, los modelos sobre el razonamiento humano como el ACT (Anderson, 1983) y 
el Soar (Laird et al., 1987). En estos sistemas, la «memoria de trabajo» del sistema mo¬ 
dela la memoria a corto término, y las réglas forman parte de la memoria a largo térmi- 
no. En cada ciclo de ejecuciôn, las producciones se emparejan con los hechos en la 
memoria de trabajo. Una producciôn cuyas condiciones se satisfacen puede anadir o eli- 
minar hechos en la memoria de trabajo. En contraste con la tipica situaciôn en una base 
de datos, a menudo, los sistemas de producciôn tienen muchas réglas y relativamente 
pocos hechos. Con la tecnologfa de emparejamiento adecuadamente optimizada, algu- 
nos sistemas modernos pueden operar sobre un millôn de réglas en tiempo real. 


3 • ✓ , 

" Rete es red en Latin. En inglés, su pronunciaciôn rima con treaty. 

4 La palabra producciôn de los sistemas de producciôn dénota una régla de condiciôn-acciôn. 
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Hechos irrelevantes 

La ültima fuente de ineficiencia en el encadenamiento hacia delante parece ser intrin- 
seco en el enfoque y también surge en la lôgica proposicional. ( Véase Apartado 7.5.) El 
encadenamiento hacia delante realiza todas las inferencias permitidas basadas en los he¬ 
chos conocidos, aunque estos sean irrelevantes respecto al objetivo. En nuestro ejem- 
plo del crimen, no habia réglas capaces de trazar conclusiones irrelevantes, asi que la 
falta de direcciôn no era un problema. En otros casos (por ejemplo, si tenemos varias 
réglas que describan los hâbitos alimenticios de los americanos y los precios de los mi- 
siles), Pregunta-EHD-Lpo generarâ muchas conclusiones irrelevantes. 

Una forma de evitar trazar conclusiones irrelevantes es utilizar el encadenamiento 
hacia atrâs, tal como describiremos en el Apartado 9.4. Otra soluciôn es restringir el en¬ 
cadenamiento hacia delante a un subconjunto seleccionado de las réglas; este enfoque 
se discutiô en el contexto proposicional. Un tercer enfoque ha surgido de la comunidad 
de las bases de datos deductivas, en las que el encadenamiento hacia delante es la he- 
rramienta estândar. La idea es rescribir el conjunto de réglas, utilizando informaciôn del 
objetivo, de tal manera que solo se consideran las ligaduras de variables relevantes 
conjunto mâgico (aquellas que pertenecen al denominado conjunto mâgico) durante la inferencia hacia 
delante. Por ejemplo, si el objetivo es Criminal(West), la régla que concluye Criminal(x ) 
sera rescrita para incluir un conjuntor extra que restringe el valor de la x: 

Mâgicoix ) a Americano{x) a Armaiy) a Vende{x, y, z) a Hostil(z ) => Criminal(x) 

El hecho Mâgico{West) también se anade a la BC. De esta manera, incluso si la base 
de conocimiento contiene hechos acerca de millones de americanos, solo se considé¬ 
rera el Coronel West durante el proceso de inferencia hacia delante. El proceso com¬ 
pléta para définir los conjuntos mâgicos y rescribir la base de conocimiento es demasiado 
complejo para incluirlo aqui, pero la idea bâsica es realizar una especie de inferencia 
hacia atrâs «genérica» desde el objetivo para resolver qué ligaduras de las variables ne- 
cesitan ser restringidas. Por lo tanto, se puede pensar en el enfoque del conjunto mâ¬ 
gico como en un tipo hibrido entre la inferencia hacia delante y el preprocesamiento 
hacia atrâs. 


9.4 Encadenamiento hacia atrâs 


La segunda gran familia de algoritmos de inferencia lôgica utiliza el enfoque de enca- 
denamiento hacia atrâs que se introdujo en el Apartado 7.5. Estos algoritmos traba- 
jan hacia atrâs desde el objetivo, encadenando a través de las réglas hasta encontrar los 
hechos conocidos que soportan la demostraciôn. Describiremos el algoritmo bâsico, y 
enfonces describiremos como se utiliza en la programaciôn lôgica, que es la forma mâs 
ampliamente utilizada de razonamiento automâtico. También veremos que el encade¬ 
namiento hacia atrâs présenta algunas desventajas comparado con el encadenamiento 
hacia delante, y veremos mecanismos para vencerlas. Por ültimo, veremos la estrecha 
conexiôn entre la programaciôn lôgica y los problemas de satisfacciôn de restricciones. 
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Un algoritmo de encadenamiento hacia atrâs 

La Figura 9.6 muestra un algoritmo sencillo de encadenamiento hacia atrâs, el PRE- 
GUNTA-EHA-Lpo. El algoritmo se invoca con una lista de objetivos que contiene un 
solo elemento, la peticion original, y devuelve el conjunto de todas las sustituciones que 
satisfacen la peticion. La lista de objetivos se puede ver como una «pila» a la espera de 
ser procesada; si todos los objetivos se pueden satisfacer, entonces la rama actual de la 
demostracion tiene éxito. El algoritmo toma el primer objetivo de la lista y encuentra 
cada clâusula de la base de conocimiento cuyo literal positivo, o cabeza, se unifica con 
él. Cada una de estas clâusulas créa una nueva llamada recursiva en la que las premisas, 
o cuerpo, de la clâusula se anaden a la pila de objetivos. Recuerda que los hechos son 
clâusulas con cabeza y sin cuerpo, asi, cuando el objetivo se unifica con un hecho co- 
nocido, no se anaden mâs subobjetivos a la pila, y el objetivo se resuelve. La Figura 9.7 
es el ârbol de demostracion para derivar Criminal(Wesi) a partir de las sentencias (9.3) 
hasta la (9.10). 

El algoritmo utiliza la composicion de sustituciones. COMPON(01, 62) es la susti¬ 
tucion cuyo efecto es idéntico a aplicar cada sustitucion en orden. Es decir, 

Sust(Compon( 6 l , 0 2 ),p) = Sust( d 2 , Sust {6 v pj) 

En el algoritmo, las ligaduras de variables actuales, que se almacenan en 6, estân com- 
puestas por las ligaduras que resultan de unificar el objetivo con la cabeza de la clâusu¬ 
la, y dan un conjunto nuevo de ligaduras para la siguiente llamada recursiva de la 
funciôn. 

El encadenamiento hacia atrâs, tal como lo hemos escrito, es claramente un algorit¬ 
mo de büsqueda de primero en profundidad. Esto significa que sus requerimientos de 
espacio son lineales respecto al tamano de la demostracion (olvidando por ahora, el es- 
pacio requerido para acumular la solucion). También significa que el encadenamiento 
hacia atrâs (a diferencia del encadenamiento hacia delante) sufre algunos problemas con 


funciôn Pregunta-EHA-Lpo(5C, objetivos, 0) devuelve un conjunto de sustituciones 
entradas: BC, una base de conocimiento 

objetivos, una lista de conjuntores que forman la peticion (9 ya aplicada) 

9, la sustitucion actual, inicialmente la sustitucion vacia { } 
variables locales: respuestas, un conjunto de sustituciones, inicialmente vacio 

si objetivos esta vacio entonces devolver { 9} 
q' <— Sust(0, PRIMER 0 ( 0 è/'eft'V 0 i)) 

para cada sentencia r en BC hacer donde Esta \ da r iza r - Va r (/j = (/?, a ... a p tl => q) 
y 9' <r- Unifica(< 7 , q') tiene éxito 
nuevos_objetivos <— [p v ...,p n \ RESTo(objetivos)\ 

respuestas <— Pregunta-EHA-Lpo(SC, nuevos objetivos, Compon(0\ 9)) u respuestas 
devolver respuestas 


Figura 9.6 Un algoritmo sencillo de encadenamiento hacia atrâs. 
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{y/Mi} || {} 


Figura 9.7. Ârbol de prueba mediante encadenamiento hacia atrâs para demostrar que West es 
un criminal. El ârbol deberia ser leldo primero en profundidad, de izquierda a derecha. Para pro¬ 
bar Criminal(West), hay que probar las cuatro conjunciones bajo él. Algunas de ellas estân en la 
base de conocimiento y otras requieren mas encadenamientos hacia atrâs. Las resoluciones para cada 
uniftcaciôn con éxito se muestran después de la submeta correspondiente. Observe que, una vez 
que una submeta tiene éxito en una conjunciôn, se aplica su sustituciôn a las submetas subsecuen- 
tes. Asf, para cuando Pregunta-EHA-Lpo llega a la liltima conjunciôn, originalmente Hostil(z), z 
ya estâ ligada a Nono. 


los estados repetidos y la incompletitud. Discutiremos estos problemas y algunas solu- 
ciones potenciales, pero primero veremos cômo se utiliza el encadenamiento hacia atrâs 
en los sistemas de programaciôn lôgica. 


Programaciôn lôgica 

La programaciôn lôgica es una tecnologia que estâ bastante relacionada con abarcar el 
idéal declarativo descrito en el Capitulo 7 : dichos sistemas se construirfan expresando 
el conocimiento en un lenguaje formai y los problemas se resolverian ejecutando pro- 
cesos de inferencia sobre dicho conocimiento. El idéal se résumé en la ecuaciôn de Ro¬ 
bert Kowalski, 

Algoritmo = Lôgica + Control 

Prolog Prolog es, de lejos, el lenguaje de programaciôn lôgica mâs extensamente utilizado. Sus 

usuarios se cuentan en cientos de miles. Se utilizô inicialmente como un lenguaje de pro- 
totipado râpido y para las tareas de manipulaciôn de simbolos, como la escritura de com- 
piladores (Van Roy, 1990), y en el anâlisis sintâctico del lenguaje natural (Pereira y 
Warren, 1980). Muchos sistemas expertos se han escrito en Prolog, para dominios le¬ 
gales, médicos, financieros y muchos otros. 

Los programas en Prolog son conjuntos de clâusulas positivas escritas en una nota- 
ciôn algo diferente a la estândar de la lôgica de primer orden. Prolog utiliza las letras ma- 
yüsculas en las variables y las minüsculas en las constantes. Las clâusulas estân escritas 
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con la cabeza precediendo al cuerpo; « : -» se utiliza para las implicaciones a la izquier- 
da, las comas separan los literales en el cuerpo, y el punto indica el final de la sentencia: 

criminal(X) americano(X), arma(Y), vende(X, Y, Z), hostil(Z) 

El Prolog incluye una «sintaxis edulcorada» para la notacion de listas y la aritmética. 
Como ejemplo, aquf tenemos un programa en Prolog para unir (X, Y, Z ), que tiene 
éxito si la lista Z es el resultado de unir las listas X y Y: 

unir([], Y, Y) 

unir([A|X], Y, [A|Z]) unir(X, Y, Z) 

En castellano, podemos leer estas clâusulas como (1) unir una lista vacia a una lista Y 
généra la misma lista Y, y (2) [A | Z ] es el resultado de unir [ A | X] a Y, dado que Z es 
el resultado de unir X a Y. Esta definiciôn de unir se asemeja bastante a la definiciôn co- 
rrespondiente en Lisp, pero realmente es mucho mas potente. Por ejemplo, podemos re- 
alizar la peticiôn unir (A, B, [1, 2 ]): ^qué dos listas se pueden unir para dar [ 1, 
2 ] ? Obtenemos las soluciones hacia atrâs 

A = [ ] B = [1, 2] 

A = [1] B = [2] 

A = [1, 2] B = [ ] 

La ejecucion de los programas en Prolog se hace mediante el encadenamiento hacia atrâs 
en primero en profundidad, donde las clâusulas se van intentando en el orden en el que 
se han escrito en la base de conocimiento. Algunos aspectos del Prolog caen fuera de la 
inferencia logica estândar: 

• Hay un conjunto de funciones incorporadas para la aritmética. Los literales que 
utilizan estos simbolos de funciôn se «demuestran» mediante la ejecucion de co- 
digo, y no realizando inferencias adicionales. Por ejemplo, el objetivo «X es 4+3» 
tiene éxito con la X ligada a 7. Por el otro lado, el objetivo «5 es X+Y» falla, ya 
que las funciones incorporadas no pueden resolver ecuaciones arbitrarias 5 . 

• Hay predicados incorporados que tienen efectos colaterales cuando se ejecutan. Es¬ 
tos son predicados de entrada y salida, y predicados de asertar/retractar para 
modificar la base de conocimiento. Este tipo de predicados no tienen su homôlo- 
go en la logica y pueden producir algunos efectos confusos, por ejemplo, si los he- 
chos se asertan en una rama del ârbol de demostracion, éste finalmente falla. 

• El Prolog permite un tipo de negacion denominada negaciôn por fallo. Un obje¬ 
tivo negado no P se considéra demostrado si el sistema falla al probar P. Asi, la 

sentencia . , , 

vivo(X) no muerto(X) 

se puede leer como «Todo el mundo estâ vivo si no es probable que esté muerto». 

• El Prolog tiene un operador de igualdad, =, pero le falta todo el poder de la igual- 
dad logica. Un objetivo de igualdad tiene éxito si los dos términos son unificables 
y falla de otro modo. Asi, x+Y=2+3 tiene éxito con la ligadura de X a 2 y de Y a 
3, pero estrellamatinal=estrellanocturna falla. (En la logica clâsica, la 


5 FIjese en que si se proporcionaran los axiomas de Peano, este tipo de objetivos se podrian resolver mediante 
inferencia en un programa en Prolog. 
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ültima igualdad podria ser o no ser verdadera.) No se pueden asertar hechos o ré¬ 
glas acerca de la igualdad. 

• La comprobaciôn de ocurrencias se omite en el algoritmo de unificaciôn del Pro¬ 
log. Esto significa que se pueden realizar algunas inferencias no sôlidas: éstas son 
rara vez un problema excepto cuando se utiliza el Prolog en la demostraciôn de 
teoremas matemâticos. 

Las decisiones tomadas en el diseno del Prolog representan un compromiso entre la efi- 
ciencia en la ejecucion y el idéal declarativo; en tanto se entendia la eficiencia en el mo- 
mento en que el Prolog se diseno. Volveremos a este tema mas tarde, al ver cômo se 
implementô el Prolog. 

Implementaciôn eficiente de programas lôgicos 

La ejecucion de un programa en Prolog se puede realizar en dos modos: interpretado o 
compilado. La interpretaciôn «esencialmente» acumula la ejecucion del algoritmo PRE- 
GUNTA-EHA-Lpo de la Figura 9.6, con el programa como la base de conocimiento. De- 
cimos «esencialmente» porque los intérpretes de Prolog contienen una variedad de 
mejoras disenadas para maximizar la velocidad. Aqui solo consideramos dos. 

Primero, en vez de construir la lista de todas las respuestas posibles para cada subob- 
jetivo antes de continuar con el siguiente, los intérpretes de Prolog generan una respuesta 
y una «esperanza» de generar el resto cuando la respuesta actual haya sido totalmente ex- 
punto de elecciôn plorada. Esta esperanza se denomina punto de elecciôn. Cuando una büsqueda de primero 

en profundidad compléta su exploraciôn de las soluciones posibles que surgen de la res¬ 
puesta actual y dan marcha atrâs al punto de elecciôn, el punto de elecciôn se expande para 
tratar la nueva respuesta para el subobjetivo y el nuevo punto de elecciôn. Este enfoque 
ahorra tiempo y espacio. También proporciona una interfaz muy sencilla para la depura- 
ciôn ya que cada vez solo hay un ünico camino soluciôn en consideraciôn. 

Segundo, nuestra sencilla implementaciôn del Pregunta-EHA-Lpo pierde una gran 
cantidad de tiempo en generar y componer las sustituciones. El Prolog implémenta las 


procedimiento Unir(<zv, y, az, continuation) 
pista <— Puntero-Global-Pista() 

si ax = [] y UNiFiCA(y, az) entonces Llama (continuation) 
REINiaALIZA-PrSTA(p«r«) 
a <— Variable-nueva() 
jc <— Variable-nueva() 
z <— Variable-nuevaQ 

si UNiFiCA(ax, [a —x]) y Unifica(czz, [a - z]) entonces Unir(.ï, y, z, continuation) 


Figura 9.8 Pseudocodigo que représenta el resultado de compilar el predicado Unir. La funcion 
Variable-Nueva devuelve una variable nueva, distinta de todas las otras variables utilizadas has- 
ta el momento. El procedimiento LLAMA(continuaciôn) continua la ejecucion con la continuacion 
especificada. 
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sustituciones utilizando variables lôgicas de las que se pueden recordar sus ligaduras ac- 
tuales. En cualquier instante de tiempo, todas las variables o no estân ligadas, o estân li- 
gadas a algün valor. Juntas, estas variables y valores definen implicitamente la sustituciôn 
para la rama actual de la demostraciôn. Extender el camino solo puede anadir nuevas li¬ 
gaduras de variables, porque un intento de anadir una ligadura distinta para una varia¬ 
ble ya ligada generaria un fallo en la unificacion. Cuando un camino en la büsqueda falla, 
el Prolog vuelve al punto de elecciôn previo, y enfonces podrfa tener que desligar algu- 
nas variables. Esto se hace guardando la pista de todas las variables que han sido liga¬ 
das en una pila llamada pista. Como cada nueva variable se liga mediante Unifica-Var, 
la variable se coloca en la pila. Cuando el objetivo falla y es el momento de volver al 
punto de elecciôn previo, cada una de las variables se desliga siendo eliminada de la pila. 

Incluso los intérpretes de Prolog mas eficientes requieren de varios miles de ins- 
trucciones de mâquina por cada paso de inferencia debido al coste del indice de consulta, 
la unificacion, y la constmcciôn de la pila de las llamadas recursivas. En efecto, el in- 
térprete siempre se comporta como si nunca hubiera visto el programa antes; por ejem- 
plo, tiene que encontrar las clâusulas que emparejan con el objetivo. Por el otro lado, 
un programa compilado de Prolog es un procedimiento de inferencia para un conjunto 
especifico de clâusulas, asi que se conoce qué clâusulas emparejan con el objetivo. El 
Prolog bâsicamente généra un demostrador de teoremas en miniatura, y para ello, éli¬ 
mina mucho de los costes de la interpretaciôn. También es posible abrir-el-côdigo de 
la rutina de unificacion en cada diferente llamada, y enfonces, evitar el anâlisis explici¬ 
ta de la estructura de los términos. (Para mâs detalles sobre codificaciôn abierta de la 
unificacion, véase Warren et al., (1977).) 

El conjunto de instrucciones de los computadores actuales nos dan una similitud muy 
pobre con la semântica del Prolog, asi que muchos compiladores de Prolog compilan a 
un lenguaje intermedio en vez de directamente al lenguaje mâquina. El lenguaje inter- 
medio mâs popular es el Warren Abstract Machine, o WAM, nombrado asi gracias a Da¬ 
vid H. D. Warren, uno de los implementadores del primer compilador de Prolog. El WAM 
es un conjunto abstracto de instrucciones que es apropiado para el Prolog y se puede in- 
terpretar o traducir a lenguaje mâquina. Otros compiladores traducen el Prolog a un len¬ 
guaje de alto nivel, como Lisp o C, y entonces utilizan el compilador de ese lenguaje 
para traducirlo al lenguaje mâquina. Por ejemplo, la definiciôn del predicado Unir se 
puede compilar en el côdigo que se muestra en la Figura 9.8. Hay varios temas que vale 
la pena tener en cuenta: 

• Mejor que tener que buscar las clâusulas Unir en la base de conocimiento, las clâu¬ 
sulas se pueden convertir en procedimientos y entonces las inferencias se llevan a 
cabo simplemente llamando al procedimiento. 

• Tal como hemos descrito antes, las ligaduras de las variables se mantienen en la 
pila. El primer paso del procedimiento guarda el estado actual de la pila, y asi se 
puede restaurar mediante Reinicializa-Pila si la clâusula falla. Esto deshace las 
ligaduras generadas por la primera llamada a Unifica. 

• El tmco consiste en el uso de las continuaciones para implementar los puntos de 
elecciôn. Se puede pensar en una continuaciôn como en el empaquetamiento de 
un procedimiento y una lista de argumentos que juntos definen lo que se debe ha- 
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PARALELISMO-O 


PARALELISMO-Y 


cer si el objetivo actual ha tenido éxito. Esto no ocurriria con un procedimiento 
como Unir cuando tuviera éxito el objetivo, porque podria tenerlo por diversos ca- 
minos, y cada uno de ellos deberia ser explorado. El argumenta de la continuacion 
resuelve este problema porque puede ser llamado cada vez que el objetivo tiene 
éxito. En el codigo de Unir, si el primer argumento esta vacfo, entonces el predi- 
cado Unir ha tenido éxito. Entonces Llamamos a la continuacion con las ligadu- 
ras adecuadas en la pila, para hacer seguidamente lo que se deberia hacer. Por 
ejemplo, si la llamada a Unir fuera en el nivel superior, la continuacion imprimi- 
ria las ligaduras de las variables. 

Antes del trabajo de Warren sobre compilaciôn en Prolog, la programaciôn lôgica era 
demasiado lenta para un uso general. Los compiladores de Warren y otros côdigos de 
Prolog permiten alcanzar velocidades que son competitivas con C en una variedad de 
puntos de referencia estândar (Van Roy, 1990). Por supuesto, el hecho de que uno pue- 
da escribir un planificador o un analizador sintâctico de lenguaje natural en unas pocas 
docenas de lfneas de codigo en Prolog lo hace algo mas deseable que el prototipado en 
C, principalmente para proyectos de investigaciôn en IA de escala pequena. 

La paralelizaciôn también puede proporcionar una aceleraciôn sustancial. Hay dos 
fuentes principales de paralelismo. La primera, denominada paralelismo-O, viene de 
la posibilidad de unificar el objetivo con muchas clâusulas distintas de la base de cono- 
cimiento. Esto nos da una rama independiente en el espacio de büsqueda que nos pue¬ 
de llevar a una soluciôn potencial, y todas estas ramas se pueden resolver en paralelo. 
La segunda, denominada paralelismo-Y, viene de la posibilidad de resolver en parale¬ 
lo cada conjuntor del cuerpo de una implicaciôn. El paralelismo-Y es mas dificil de al¬ 
canzar, porque la soluciôn global para la conjunciôn requiere ligaduras consistentes para 
todas las variables. Cada rama conjuntiva debe comunicarse con las otras ramas para ase- 
gurar una soluciôn global. 

Inferencia redundante y bucles infinitos 

Ahora volvemos al talon de Aquiles del Prolog: la désunion entre la büsqueda de pri¬ 
mera en profundidad y los ârboles de büsqueda que incluyen estados repetidos y cami- 
nos infinitos. Considéré el siguiente programa lôgico, que décidé si existe un camino entre 
dos nodos de un grafo dirigido: 

camino(X, Z) enlace(X, Z) 

camino(X, Z) enlace(X, Y), enlace(Y, Z) 

En la Figura 9.9(a) se muestra un simple grafo de très nodos, descrito por los hechos en¬ 
lace (a, b) y enlace (b, c ). Con este programa, la peticiôn camino (a, c) gé¬ 
néra la demostraciôn que se muestra en la Figura 9.10(a). Por el otro lado, si ponemos 
las dos clâusulas en el orden 

camino(X, Z) enlace(X, Y), enlace(Y, Z) 

camino(X, Z) enlace(X, Z) 

el Prolog seguirâ un camino infinito como el que se ve en la Figura 9.10(b). Por lo tanto, 
el Prolog es incomplète como demostrador de teoremas con clâusulas positivas (incluso 
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con los programas Datalog, como muestra este ejemplo) debido a que para algunas bases 
de conocimiento falla al demostrar sentencias que estân implicadas. Fijese que el enca- 
denamiento hacia delante no sufre de este problema: una vez camino(a,b), cami- 
no (b, c) y camino (a, c) son inferidas, el encadenamiento hacia delante finaliza con 
éxito. 

El encadenamiento hacia atrâs en primero en profundidad también tiene problemas 
con los câlculos redundantes. Por ejemplo, cuando se busca un camino de A 1 a / 4 , como 
se muestra en la Figura 9.9(b), el Prolog realiza 877 inferencias, muchas de las cuales 
consisten en encontrar todos los caminos posibles a nodos a los que el objetivo no pue- 
de enlazarse. Esto es similar al problema de los estados repetidos que se hablô en el Ca- 
pitulo 3. La cantidad total de inferencias puede ser exponencial respecto al nümero de 
hechos base que son generados. Si en vez de esto aplicamos el encadenamiento hacia 
delante, como mucho se pueden generar n 2 hechos camino (X, Y) enlazando n nodos. 
Para el problema de la Figura 9.9(b) solo se necesitan 62 inferencias. 
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PROGRAMACIÔN 

DINÂMICA 


PROGRAMACION 
LÔGICA BASADA EN 
TABLAS 


PROGRAMACION 
LOGICA CON 
RESTRICCIONES 


El encadenamiento hacia delante aplicado en problemas de büsqueda sobre grafos 
es un ejemplo de la programaciôn dinâmica, en la que las soluciones de los subpro- 
blemas se van construyendo incrementalmente a partir de subproblemas mas pequenos 
y se guardan para evitar posteriores recâlculos. Obtenemos un efecto similar en el sis- 
tema de encadenamiento hacia atrâs utilizando la niemorizaciôn, es decir, guardando 
las soluciones de los subobjetivos a medida que se encuentran y enfonces se reutilizan 
aquellas soluciones cuando el subobjteivo se repite, en vez de repetir el câlculo ya rea- 
lizado. Este es el enfoque que se utiliza en los sistemas de programaciôn lôgica basa- 
da en tablas, que utilizan unos mecanismos de almacenamiento y recuperaciôn eficientes 
para realizar la memorizaciôn. La programaciôn lôgica basada en tablas combina la orien- 
taciôn al objetivo del encadenamiento hacia atrâs con la eficiencia de la programaciôn 
dinâmica del encadenamiento hacia delante. Y ademâs es un proceso completo para los 
programas Datalog, lo que significa que el programador no necesita preocuparse mâs acer- 
ca de los bucles infinitos. 


Programaciôn lôgica con restricciones 

En nuestra exposiciôn acerca del encadenamiento hacia delante (Apartado 9.3) mostra- 
mos cômo se podian codificar los problemas de satisfacciôn de restricciones (PSR) me- 
diante clâusulas positivas. El Prolog estândar resuelve este tipo de problemas exactamente 
de la misma manera como lo hace el algoritmo con backtracking dado en la Figura 5.3. 

Ya que el backtracking (vuelta hacia atrâs) enumera los dominios de las variables, 
solo trabaja con PSRs con dominio finito. En términos de Prolog, debe haber un nümero 
finito de soluciones para cada objetivo con las variables desligadas. (Por ejemplo, el ob¬ 
jetivo dif ( q , sa ), que dice que Queensland y el Sur de Australia deben tener colores 
diferentes, tiene seis soluciones si se permiten très colores.) Los PSRs con dominios in- 
finitos (por ejemplo con variables enteras o reales) requieren algoritmos bastante dife¬ 
rentes, taies como la propagaciôn de ligaduras o la programaciôn lineal. 

La siguiente clâusula tiene éxito si très numéros satisfacen la desigualdad del triân- 
gulo: 

triangulo(X, Y, Z) 

X >= 0, Y >= 0, Z >= 0, X + Y >= Z, Y + Z >= X, X + Z >= Y 

Si le hacemos al Prolog la peticiôn triangulo ( 3 , 4, 5 ) trabaja bien. Por el otro lado, 
si preguntamos por triangulo ( 3 , 4 , Z ) , no se encontrarâ ninguna soluciôn porque 
el subobjetivo Z >= 0 no puede ser manejado por el Prolog. La dificultad es que en Pro¬ 
log las variables deben estar en uno o dos estados: ligadas o desligadas a un término en 
particular. 

Ligar una variable a un término concreto se puede ver como un tipo extremo de res- 
tricciôn, a saber, una restricciôn de igualdad. La programaciôn lôgica con restricciones 
(PLR) permite que las variables estén mâs bien restringidas que ligadas. Una soluciôn 
para un programa lôgico con restricciones es el conjunto mâs especifico de restriccio¬ 
nes en las variables de la peticiôn que se pueden derivar de la base de conocimiento. 
Por ejemplo, la soluciôn a la peticiôn de triangulo (3, 4, Z) es la restricciôn 
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7 >= z >= 1. Los programas logicos con restricciones son tan solo un caso especial 
de la PLR en los que las restricciones soluciôn deben ser restricciones de igualdad, o 
ligaduras. 

Los sistemas de PLR incorporan diversos algoritmos de resolucion de restricciones 
para las restricciones que se permiten en el lenguaje. Por ejemplo, un sistema que per- 
mite desigualdades lineales en variables reales podrfa incluir un algoritmo de progra- 
maciôn lineal para resolver dichas restricciones. Los sistemas de PLR también pueden 
adoptar un enfoque mucho mas flexible para resolver las peticiones de la programacion 
lôgica estândar. Por ejemplo, en vez de primero en profundidad o backtracking (vuelta 
hacia atrâs) de izquierda a derecha, podrfan utilizar uno de los algoritmos, mas eficien- 
tes, que se mostraron en el Capitulo 5, incluyendo las heuristicas de ordenacion de los 
conjuntores, salto atrâs, condicionamiento del corte del conjunto, etc. Por lo tanto, los 
sistemas de PLR combinan elementos de los algoritmos de satisfacciôn de restricciones, 
de la programacion lôgica, y de las bases de datos deductivas. 

Los sistemas de PLR también pueden tomar ventaja de la variedad de optimizacio- 
nes de büsqueda descritas en el Capitulo 5, taies como la ordenacion de valores y va¬ 
riables, la comprobaciôn hacia delante y el backtracking inteligente. Se han definido una 
gran diversidad de sistemas que permiten al programador un mayor control sobre el or- 
den de büsqueda en la ejecuciôn de la inferencia. Por ejemplo, el lenguaje MRS (Ge- 
meta réglas nesereth y Smith, 1981; Russell, 1985) le permite al programador escribir meta réglas 

para determinar qué conjuntor se intenta primero. El usuario podria escribir una régla 
diciendo que el objetivo con menos variables deberia intentarse antes o podria escribir 
réglas especificas del dominio para predicados concretos. 


9.5 Resolucion 


TEOREMA DE LA 
COMPLETITUD 


TEOREMA DE LA 
INCOMPLETITUD 


La ültima de nuestras très familias de sistemas logicos esta basada en la resolucion. En 
el Capitulo 7 vimos que la resolucion proposicional es un procedimiento de inferencia 
mediante refutaciôn que es compléta para la lôgica proposicional. En esta secciôn ve- 
remos cômo ampliar la resolucion a la lôgica de primer orden. 

El tema de la existencia de procedimientos de demostraciôn completos concierne di- 
rectamente a los matemâticos. Si se puede encontrar un procedimiento de demostraciôn 
completo para los enunciados matemâticos, pueden suceder dos cosas: primero, todas 
las conjeturas se pueden establecer mecânicamente; segundo, todas las matemâticas se 
pueden establecer como la consecuencia lôgica de un conjunto de axiomas fundamen- 
tales. El tema de la completitud por lo tanto ha generado algunos de los trabajos mate¬ 
mâticos mâs importantes del siglo xx. En 1930, el matemâtico alemân Kurt Gôdel 
demostrô el primer teorema de la completitud para la lôgica de primer orden, mostrando 
que una sentencia implicada tiene una demostraciôn finita. (Realmente no se encontrô 
un procedimiento prâctico de demostraciôn hasta que J. A. Robinson publicô su algo¬ 
ritmo de resolucion en 1965.) En 1931, Gôdel demostrô el aün mâs famoso teorema de 
la incompletitud. El teorema muestra que un sistema lôgico que incluye el principio de 
la inducciôn (sin el cual muy pocas de las matemâticas discretas se pueden construir) es 
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necesariamente incompleto. De aqui, que haya sentencias implicadas, pero no haya dis¬ 
ponible una demostracion finita en el sistema. La aguja puede estar en un pajar metafo- 
rico, pero ningün procedimiento puede garantizar que sera encontrada. 

A pesar del teorema de Gôdel, los demostradores de teoremas basados en la resolu- 
cion han sido utilizados para derivar teoremas matemâticos, incluyendo varios de los que 
no se conocian, previamente una demostracion. Los demostradores de teoremas también 
han sido utilizados para verificar disenos de hardware y para generar programas correctes 
desde el punto de vista lôgico, entre otras aplicaciones. 



Formas normales conjuntivas en lôgica 
de primer orden 

Como en el caso proposicional, la resolucion en primer orden requiere que las senten¬ 
cias estén en la forma normal conjuntiva (FNC), es decir, una conjunciôn de clâusu- 
las, donde cada clâusula es una disyuncion de literales 6 . Los literales pueden contener 
variables, que se asume estân cuantificadas universalmente. Por ejemplo, la sentencia 

Vx Americano{x) a Arma(y ) a Vendeix, y, z ) a Hostil(z ) => CriminaKx ) 
se transforma a FNC como 

-! Americano(x ) v -> Arma(y) v -> Vendeix, y, z) v ~>Hostil{z) v Criminal(x ) 

Cada sentencia en lôgica de primer orden se puede convertir a una sentencia en FNC 
que es équivalente inferencialmente. En concrète, la sentencia en FNC sera insatisfaci- 
ble solo cuando la sentencia original lo sea, asi disponemos de una base para hacer de- 
mostraciones mediante contradiccion con sentencias en FNC. 

El procedimiento para la conversion a la FNC es muy parecido al del caso proposi¬ 
cional que vimos en el Apartado 7.5. La principal diferencia viene de la necesidad de 
eliminar los cuantificadores universales. Mostraremos el procedimiento transformando 
la sentencia «Todo el mundo que ama a los animales es amado por alguien», o 

Vx [Vy Animal(y) => Ama(x, y)] => [3y Ama(y, x)] 

Los pasos a seguir son los siguientes: 

• Elimination de las implicaciones: 

Vx [—iVy -'Animal(y) v Ama{x, y)] v [3y Ama{y, x)] 

• Anidar las ademâs de las réglas usuales para las conectivas negadas, necesita- 
mos las réglas para los cuantificadores negados. De este modo tenemos 

-A/x p se convierte en 3x -p 
-i3x p se convierte en Vx -p 


6 Una clâusula también se puede representar como una implication con una conjunciôn de âtomos a la iz- 
quierda y una disyuncion de âtomos a la derecha, tal como se muestra en el Ejercicio 7.12. Esta forma, que 
algunas veces se denomina forma de Kowalski cuando se escribe con un slmbolo de implication de dere¬ 
cha a izquierda (Kowalski, 1979b), a menudo es mâs fâcil de leer. 
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SKOLEMIZACION 


FUNCIÔN DE SKOLEM 


Nuestra sentencia pasa a través de las siguientes transformaciones: 

Vx [3y -i(~i Animaliy ) v Ama(x, y))] v [3y Ama(y, x)\ 

Vx [3y -i-i AnimaKy ) a -'Amaix, _v))] v [3y Ama(y, x)] 

Vx [3_y Animaliy) a -i. Ama(x, y))] v [3y Amaiy, x)] 

Fijese en que el cuantificador universal (Vy) de la premisa de la implicaciôn se con- 
vierte en un cuantificador existencial. La sentencia ahora se lee «Hay algün ani¬ 
mal que x no ama, o (si éste no es el caso) alguien ama a x». Esta claro que el 
significado de la sentencia original se mantiene. 

• Estandarizar las variables: para las sentencias del tipo (Vx Pix)) v (3x Q(x)), 
que utilizan el mismo nombre de variable dos veces, se cambia una de las dos va¬ 
riables. Esto évita la confusion posterior al eliminar los cuantificadores. As! tene- 
mos 


Vx [3y Animaliy) a ->Ama(x, y)] v [3z Ama(z, x)]. 

• Skolemizar: la Skolemizaciôn es el proceso de borrar los cuantificadores exis- 
tenciales mediante su eliminacion. En el caso mas sencillo, se aplica la régla de la 
Especificacion Existencial del Apartado 9.1: transformar 3x P(x) a P(A), donde 
A es una constante nueva. Si aplicamos esta régla a nuestra sentencia del ejemplo, 
obtenemos 


Vx \Animal(A) a AmaÇx, A)] v AmaiB, x) 

en donde se obtiene un significado totalmente errôneo: la sentencia dice que todo 
el mundo o no puede amar al animal A o que es amado por la entidad B. De he- 
cho, nuestra sentencia original le permite a cada persona no poder amar a un ani¬ 
mal diferente o ser amado por otra persona. Por lo tanto, lo que queremos es obtener 
las entidades de Skolem que dependen de x: 

Vx [. AnimaliFix)) a ->Ama(x, E(x))] v Ama(Gix), x) 

Aqui F y G son funciones de Skolem. La régla general es que los argumentos de 
la funciôn de Skolem dependen de las variables cuantificadas universalmente 
cuyo âmbito abarca a los cuantificadores existenciales. Igual que con la Especifi- 
caciôn Existencial, la sentencia skolemizada es satisfacible solo cuando la sentencia 
original lo es. 

• Eliminar los cuantificadores universales: en este punto, todas las variables que 
quedan deben estar cuantificadas universalmente. Mas aün, la sentencia es équi¬ 
valente a una en la que todos los cuantificadores universales se han desplazado a 
la izquierda. Por lo tanto podemos eliminar los cuantificadores universales: 

[AnimaliFix)) a -i Ama{x, F(x))] v Ama(G(x), x) 

• Distribuir la a respecto la v: 

[AnimaliFix)) v Ama(G(x), x)] a [-i Amaix, F(x)) v Ama(G(x), x)] 

Este paso también puede requérir extraer las conjunciones y disyunciones anida- 
das. 
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RESOLUCIÔN BINARIA 


La sentencia ahora esta en FNC y esta compuesta por dos clâusulas. Es algo ilegible. (Po- 
drîa ser de ayuda explicar que la funciôn de Skolem F(x) se refiere al animal que po- 
tencialmente no ama x, mientras que G(x) se refiere a alguien que podria amar a x.) 
Afortunadamente, las personas rara vez necesitan ver las sentencias en FNC (el proce- 
so de traducciôn es muy fâcilmente automatizable). 


La régla de inferencia de resoluciôn 

La régla de la resoluciôn para la lôgica de primer orden es simplemente una version ele- 
vada de la régla de resoluciôn proposicional que hemos dado en el Apartado 7.5. Dos 
clâusulas, que se asume estân con las variables estandarizadas y asi no comparten nin- 
guna variable, se pueden resolver si contienen literales complementarios. Los literales 
proposicionales complementarios son complementarios si uno es la negaciôn del otro, 
los literales en lôgica de primer orden son complementarios si uno se unifica con la ne¬ 
gaciôn del otro. De este modo tenemos 

v ... v î k , m 1 v ... v m n 

SuST(0,f j v ... v v € ;+1 v ... v î k v m, v ... v m j X v m j+1 v ... v m n ) 

donde Unifica(€ ; , -i mj) = 6. Por ejemplo, podemos resolver las dos clâusulas 

\Animal(F(x)) v Ama(G(x), x)] y [~'Ama(u, v ) v -• Mata(u, v)] 

eliminando los literales complementarios Amci{G{x), x) y ~>Ama(u, v), con el unificador 
9 = {u/G(x), v/x}, para producir la clâusula resolvente 

\Animal{F{x)) v ~^Mata{G{x), x)] 

La régla que acabamos de dar es la régla de resoluciôn binaria, porque resuelve exac- 
tamente dos literales. La régla de resoluciôn binaria por si misma no nos da un proce- 
dimiento de inferencia completo. La régla de resoluciôn general resuelve los subconjuntos 
de los literales en cada clâusula que es unificable. Un enfoque alternativo es ampliar la 
factorizaciôn (la eliminaciôn de los literales redundantes) en el caso de la lôgica de pri¬ 
mer orden. La factorizaciôn proposicional reduce dos literales a uno si son idénticos\ la 
factorizaciôn de primer orden reduce dos literales a uno si éstos son unificables. El uni- 
ficador debe ser aplicado a la clâusula entera. La combinaciôn de la resoluciôn binaria 
con la factorizaciôn si es compléta. 


Demostraciones de ejemplo 

La resoluciôn demuestra que BC |= a probando que BC a~i a es insatisfacible, por ejem¬ 
plo, derivando la clâusula vacia. El enfoque algorftmico es idéntico al caso proposicio¬ 
nal, descrito en la Figura 7.12, asi que no lo repetiremos aqui. En vez de ello, daremos 
dos demostraciones de ejemplo. La primera es el ejemplo del crimen del Apartado 9.3. 
Las sentencias en FNC son: 
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-iAmericano(x) v -'Arma(y) v ~'Vende(x, y, z) v ->Hostil(z ) v Criminal(x ) 

-i MisilÇx) v -i Tiene(Nono, x) v Vencle(West, x, Nono) 

-i Enemigo(x , América ) v Hostil(x) 

-t Misil(x ) v Arma(x ) 

Tiene(Nono, M j). Misil(M 

Americano(West). Enemigo{Nono, América) 

También incluimos el objetivo negado, -i Criminal(West). La demostraciôn por reso¬ 
luciôn se muestra en la Figura 9.11. Fijese en la estructura: un comienzo de la «co- 
lumna» sencillo, con la clâusula objetivo, que se resuelve a través de las clâusulas de 
la base de conocimiento hasta que se généra la clâusula vacia. Esto es algo caracteris- 
tico de la resoluciôn con las bases de conocimiento con clâusulas de Horn. De hecho, 
las clâusulas a lo largo de la columna se corresponden exactamente con los valores con- 
secutivos de las variables de los objetivos del algoritmo de encadenamiento hacia atrâs 
de la Figura 9.6. Esto se debe a que siempre escogemos resolver con una clâusula cuyo 
literal positivo se unifique con el literal mâs a la izquierda de la clâusula «actual» de 
la columna; y esto es lo que ocurre exactamente con el encadenamiento hacia atrâs. 
De esta manera, el encadenamiento hacia atrâs es un caso especial de la resoluciôn, 
con una estrategia de control concreta para decidir qué resoluciôn se realiza a conti- 
nuaciôn. 

Nuestro segundo ejemplo hace uso de la Skolemizaciôn y trata con clâusulas que no 
son positivas. Esto généra una estructura de demostraciôn algo mâs compleja. En len- 
guaje natural el problema se présenta asi: 

Todo el mundo que ama a todos los animales es amado por alguien. 

Cualquiera que mate a un animal no es amado por nadie. 

Jack ama a todos los animales. 

Jack o Curiosity mataron a la gata, que se llama Tuna. 

^Mato Curiosity a la gata? 



Figura 9.11 Una demostraciôn mediante resoluciôn de que West es un criminal. 
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Primero expresamos, en logica de primer orden, las sentencias originales, algün cono- 
cimiento de base, y el objetivo G negado: 

A. Vx [Vx Animal(y) => Ama(x, y)] => [3y Ama(y, x)] 

B. Vx [Vy Animal(y) a MataÇx, y)] => [Vz -<Ama(z, x)] 

C. Vx Animal{x) => Ama{Jack, x) 

D. Mata{Jack, Tunà) v Mata{Curiosity, Tuna) 

E. Gata(Tuna) 

F. Vx Gata(x) => Animal(x) 

-iG. -iMata(Çuriosity, Tuna) 

Ahora aplicamos el procedimiento de conversion para transformar cada sentencia a 
FNC: 

Al. Animal(F(x )) v Ama(G(x), x) 

A2. -iAma(x, F(x)) v Ama(G(x), x) 

B. -i Animaliy) v -< Mataix, y) v -i Ama(z, x) 

C. -! Animal{x) v Ama{Jack, x) 

D. Mata{Jack, Tuna) v Mata(Curiosity, Tuna) 

E. GataÇTuna) 

F. ~>Gata(x) v Animal(x) 

-G. -i MaîaiÇurioîity, Tuna) 

Fa demostracion mediante resolucion de que Curiosity mato a la gata se muestra en la 
Figura 9.12. En lenguaje natural, la demostracion se podrfa parafrasear como sigue: 

Supongamos que Curiosity no mato a Tuna. Sabemos que lo hizo Jack o Curiosity, por 
lo tanto tiene que ser Jack. Tuna es una gata y los gatos son animales. Ya que cualquie- 
ra que mate a un animal no es amado por nadie, entonces deberfamos pensar que nadie 
ama a Jack. Por el otro lado, Jack ama a los animales, asi que alguien lo ama, y enton¬ 
ces llegamos a una contradiccion. De todo ello concluimos que Curiosity mato a la gata. 

Fa demostraciom responde a la pregunta «^Curiosity mato a la gata?», pero a menudo 
queremos realizar preguntas mas generales, del tipo «^Quién mato a la gata?». Fa reso¬ 
lucion puede responder a este tipo de preguntas, pero necesita hacer un poco mas de es- 
fuerzo para obtener la respuesta. El objetivo es 3w Mata{w , Tuna), que cuando se niega 



Figura 9.12 Una demostracion mediante resolucion de que Curiosity mato a la gata. Fijese en el 
uso de la factorizacion en la derivacion de la clâusula Ama{G{Jack), Jack). 
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queda de la forma ~>Mata(w, Tuna) en FNC. Al repetir la demostracion de la Figura 9.12 
con el nuevo objetivo negado, obtenemos un ârbol de demostracion algo similar, pero 
con la sustituciôn { w/Curiosity } en uno de los pasos. Asi, en este caso, averiguar quién 
maté a la gata es justamente una forma de guardar la pista de las ligaduras de la varia¬ 
ble de la peticiôn durante la demostracion. 

Desafortunadamente, la resolucion puede generar demostraciones no constructi- 
vas cuando trabaja con objetivos existenciales. Por ejemplo, -> Mata(w, Tuna ) se resuelve 
con MatajJack, Tuna) v MatajCuriosity, Tuna) para dar MatajJack, Tuna), y que se re¬ 
suelve, otra vez, con ~^Mata{w, Tuna) para obtener la clâusula vacia. Fijese en que w 
tiene dos ligaduras diferentes en esta demostracion; la resolucion nos dice que si, que 
alguien mato a Tuna: Jack o Curiosity. ;Esto no nos sorprende! Una soluciôn consiste 
en restringir los pasos permitidos de la resolucion de manera que las variables de la pe- 
ticiôn se puedan ligar una sola vez en una demostracion dada; enfonces necesitamos ser 
capaces de volver sobre las ligaduras posibles. Otra soluciôn es anadir un literal de res- 
puesta especial al objetivo negado, que se convierte en -> Mata{w, Tuna) v Respuestajw). 
Entonces, ahora el proceso de resolucion généra una respuesta cuando se généra una 
clâusula con solo el literal de respuesta. Para la demostracion de la Figura 9.12 séria 
RespuestajCuriosity). La demostracion no constructiva generaria la clâusulas Res- 
puesta{Curiosity) v RespuestajJack), que no constituye en si una respuesta. 

Completitud de la resolucion 

En esta secciôn damos una demostracion de la completitud de la resolucion. Se puede 
saltar sin temor por aquellos que estân dispuestos a desafiar la fe. 

Demostraremos que la resolucion es un procedimiento de refutaciôn completo, lo 
que significa que si un conjunto de sentencias es insatisfacible, entonces la resolucion 
siempre sera capaz de derivar una contradicciôn. La resolucion no se puede utilizar para 
generar todas las consecuencias lôgicas de un conjunto de sentencias, pero se puede 
utilizar para establecer si una sentencia dada se deduce de un conjunto de sentencias. 
De aqui, que se pueda utilizar para encontrar todas las respuestas a una pregunta dada, 
utilizando el método del objetivo negado que se ha descrito previamente en este capi- 
tulo. 

Tomaremos como premisa que cualquier sentencia en lôgica de primer orden (sin 
igualdad) se puede transformar en un conjunto de clâusulas en FNC. Esto se puede de- 
mostrar por inducciôn sobre la forma de la sentencia, utilizando las sentencias atômicas 
como el caso base (Davis y Putnam, 1960). Nuestro objetivo, por lo tanto, es demostrar 
lo siguiente: si S es un conjunto de clâusulas insatisfacible, entonces la aplicaciôn de 
un numéro finito de pasos de resolucion sobre S nos darâ una contradicciôn. 

Nuestro esbozo de la demostracion se basa en la demostracion original de Robin¬ 
son, con algunas simplifieaciones cogidas de Genesereth y Nilsson (1987). La estruc- 
tura bâsica de la demostracion se muestra en la Figura 9.13; que procédé como sigue: 

1. Primero, observamos que si S es insatisfacible, entonces debe existir un sub- 
conjunto de distancias base de las clâusulas de S que también es insatisfacible 
(teorema de Herbrand). 
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Figura 9.13 Estructura de la demostraciôn de la completitud de la resoluciôn. 
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2. Enfonces apelamos al teorema fundamental de la resoluciôn del Capitulo 7, 
que establece que la resoluciôn proposicional es compléta para sentencias base. 

3. Luego utilizamos el lema de la elevaciôn que muestra que para cualquier de¬ 
mostraciôn mediante resoluciôn proposicioonal que utiliza un conjunto de sen¬ 
tencias base, existe su correspondiente demostraciôn mediante resoluciôn de 
primer orden que utiliza las sentencias de primer orden de las que se obtuvie- 
ron las sentencias base. 

Para llevar a cabo el primer paso necesitaremos très conceptos nuevos: 

• Universo de Herbrand: si S es un conjunto de clâusulas, enfonces H s , el univer- 
so de Herbrand de S, es el conjunto de todos los términos base que se pueden cons- 
truir a partir de: 

a) Los simbolos de funciôn en S, si hay alguno. 

b) Los simbolos de constante en S, si hay alguno; sino, el simbolo de constante A. 

Por ejemplo, si S contiene la clâusula -t P(x, F{x, A)) v ~<Q(x, A) v R(x, B), enfon¬ 
ces H, es el siguiente conjunto de términos base: 

{A, B , F (A, A), F (A, B), F (B, A), F (B, B), F (A, F (A, A)), ...}. 

• Saturaciôn (Instancias Base): si S es el conjunto de clâusulas, y P es el conjun¬ 
to de términos base, entonces P(S), la saturaciôn de S respecto a P. Es el conjun¬ 
to de las clâusulas base que se obtienen de aplicar todas las sustituciones posibles 
consistentes de términos base en P, sobre las variables de S. 

• Base de Herbrand: la saturaciôn (o las instancias base) de un conjunto S de clâu¬ 
sulas con respecto a su universo de Herbrand se denomina Base de Herbrand de 
S, que se escribe Hs(S). Por ejemplo, si S contiene tan solo la clâusula que hemos 
dado anteriormente, entonces Hs(S ) es el conjunto finito de clâusulas 
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El teorema de incompletitud de Gôdel 

Ampliando un poco el lenguaje de la lôgica de primer orden para permitir el uso de la inducciôn ma- 
temâtica, Gôdel fue capaz de demostrar, en su teorema de la incompletitud, que hay sentencias arit- 
méticas que son verdaderas y que no se pueden demostrar. 

La demostraciôn del teorema de la incompletitud es algo que va mas alla del alcance de este 
libro, y ocupa, como lo hace, un minimo de 30 paginas, pero aqui podemos dar una breve pista. 
Comenzamos con la teoria lôgica de los nümeros. En esta teoria, hay una sola constante, el 0, y 
una sola funciôn, 5 (la funciôn sucesor). En el modelo deseado, 5 (0) dénota 1, 5(5(0)) dénota 2, 
etc.; por lo tanto, el lenguaje tiene nombres para todos los nümeros naturales. El vocabulario tam- 
bién incluye los simbolos de funciôn +, x, y Exp (exponenciaciôn) y el conjunto habituai de co- 
nectivas lôgicas y cuantificadores. El primer paso consiste en fijarse en que el conjunto de 
sentencias que podemos escribir en este lenguaje se puede enumerar. (Imagine définir un orden 
alfabético sobre los simbolos y entonces organizar, por orden alfabético, cada conjunto de sen¬ 
tencias de longitud 1, 2, etc.) Entonces podemos enumerar cada sentencia a con un ünico nüme- 
ro natural #a (el numéro de Gôdel). Esto es crucial: la teoria de los nümeros contiene un nombre 
para cada una de sus sentencias. De forma similar, podemos enumerar cada posible demostraciôn 
D con un nümero de Gôdel G(D), porque una demostraciôn simplemente es una secuencia finita 
de sentencias. 

Ahora suponga que tenemos un conjunto A de sentencias que es enumerable recursivamente y 
que es el conjunto de los enunciados acerca de los nümeros naturales que son verdaderos. Y dado 
que A se puede nombrar mediante un conjunto de enteros, podemos imaginar escribir en nuestro len¬ 
guaje una sentencia a(j, A) de la siguiente manera: 

V/ i no es el nümero de Gôdel de una demostraciôn de una sentencia cuyo nümero de Gô¬ 
del es j, donde la demostraciôn solo utiliza las premisas de A. 

Entonces dejemos que crsea la sentencia a(#a, A), es decir, una sentencia que define su propia im- 
probabilidad a partir de A. (Que esta sentencia siempre existe es verdadero, pero no del todo ob- 
vio.) 

Ahora hacemos el siguiente argumento ingenioso: supongamos que cr es probable a partir de A; 
entonces a es falsa (porque cr dice que no se puede demostrar). Pero entonces tenemos una senten¬ 
cia falsa que es probable a partir de A, y por tanto A no tiene solo sentencias verdaderas (generando 
una violaciôn de nuestra premisa). Por lo tanto omo es probable a partir de A. Y esto es exactamen- 
te lo que cr proclama; de aqui que cr sea una sentencia verdadera. 

Asi hemos demostrado (eliminando 29 paginas y media) que para cualquier conjunto de sen¬ 
tencias verdaderas acerca de la teoria de los nümeros, y en concreto, cualquier conjunto de los 
axiomas bâsicos, hay otras sentencias verdaderas que no se pueden demostrar a partir de esos 
axiomas. Esto establece, entre otras cosas, que nunca podemos demostrar todos los teoremas de 
las matemâticas a partir de un sistema de axiomas dado. Esta claro que esto fue un importante 
descubrimiento para los matemâticos. Su utilidad para la IA ha sido ampliamente debatida, co- 
menzando con las especulaciones por el propio Gôdel. Retomaremos este debate en el Capitu- 
lo 26. 
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{-<P(A, F (A, A)) v —<2(A, A) v R(A, B), 

F (B, A)) v -2(5, A) v R(B, B), 

-5(5(A, A), F(F(A, A), A)) v -2(E(A, A), A) v R(F(A, A), B), 

-5(5(A, B), F (F (A, B), A)) v -2(E(A, B), A) v R(F(A, B), B),...} 

Estas definiciones nos permiten définir una variante del teorema de Herbrand (Her- 
brand, 1930): 

Si un conjunto de clâusulas S es insatisfacible, enfonces debe existir un subconjunto fi- 
nito de Hs(S ) que también sea insatisfacible. 

Sea S' el subconjunto finito de sentencias base. Ahora podemos apelar al teorema fon¬ 
damental de la resoluciôn (Apartado 7.5) para demostrar que el cierre de la resoluciôn 
CR(S') contiene la clâusula vacia. Es decir, ejecutando la resoluciôn proposicional para 
obtener una conclusion a partir de S' généra una contradicciôn. 

Ahora acabamos de establecer que siempre hay una demostraciôn mediante resolu¬ 
ciôn que involucra a algün subconjunto finito de la base de Herbrand de S, el siguiente 
paso consistirâ en demostrar que hay una demostraciôn mediante resoluciôn utilizando 
las propias clâusulas de S, que no son necesariamente clâusulas base. Comenzamos te- 
niendo en cuenta una sola aplicaciôn de la régla de la resoluciôn. El lema bâsico de Ro¬ 
binson implica el siguiente hecho: 

Sean Cj y C 2 dos clâusulas con variables no compartidas, y sean C j y Cj las instancias 
base de Cj y Cj. Si C' es el resolvente de Cj y Cj entonces debe existir una clâusula C 
tal que (1) C sea el resolvente de Cj y C 2 y (2) C' sea una instancia base de C. 

Esto se llama un lema de elevaciôn, porque eleva un paso de demostraciôn a partir de 
clâusulas base a clâusulas de primer orden generales. Para demostrar su lema de eleva¬ 
ciôn bâsico, Robinson ténia que inventar la unificaciôn y derivar todas la propiedades 
de los unificadores mâs generales. Mâs que repetir aqui la demostraciôn, simplemente 
ilustramos el lema: 

Cj = -P(x, F(x, A)) v ->Q(x, A) v R(x, B ) 

C 2 = ->N(G(y), z) v P(H(y), z) 

Cj = -5(H(5), F(H(B), A)) v -£(//(£), A) v R(H(B), B) 

Cj = ->N(G(B), F (H (B), A)) v P(H(B), F (H (B), A)) 

C' = ~-N(G(B), F(H(B), A)) v -2(//(5), A) v R(H(B), B) 

C = -'N(G (y), F (H(y), A)) v -,Q(H(y), A) v R(H(y), B) 

Vemos que efectivamente, C' es una instancia base de C. Por lo general, para que C[ y 
Cj tengan algün resolvente, deben estar construidos aplicando primero el unificador mâs 
general a C { y C 2 partiendo de una pareja suya de literales complementarios. Del lema 
de la elevaciôn, es fâcil derivar un enunciado similar acerca de cualquier secuencia de 
aplicaciones de la régla de la resoluciôn: 

Para cualquier clâusula C' del cierre de la resoluciôn de S' hay una clâusula C en el cie¬ 
rre de la resoluciôn de S, tal que C' es una instancia base de C y la derivaciôn de C es de 
la misma longitud que la derivaciôn de C'. 

De este hecho, se sigue que si aparece la clâusula vacia en el cierre de la resoluciôn de 
S', también debe aparecer en el cierre de la resoluciôn de S. Esto se debe a que la clâu- 
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sula vacia no puede ser una instancia base de cualquier otra clâusula. Para recapitular: 
hemos demostrado que si S es insatisfacible, enfonces hay una derivaciôn finita de la clâu¬ 
sula vacia mediante la régla de la resolucion. 

La elevaciôn de la demostracion del teorema a partir de las clâusulas base a las clâu- 
sulas de primer orden nos proporciona un incremento vasto de poder. Este incremento vie- 
ne del hecho de que la demostracion en primer orden necesita variables instanciadas solo 
a medida que es necesario para la demostracion, mientras que los métodos con clâusulas 
base eran necesarios para evaluar un nümero enorme de instanciaciones arbitrarias. 


Manejar la igualdad 

Ninguno de los métodos de inferencia descritos hasta ahora manejan la igualdad. Hay très 
enfoques diferentes que se pueden tomar. El primer enfoque consiste en axiomatizar la 
igualdad (anotar las sentencias con la relaciôn de igualdad en la base de conocimiento). 
Necesitamos decir que la igualdad es reflexiva, simétrica y transitiva, y también necesi- 
tamos decir que podemos sustituir objetos iguales en cualquier predicado o funciôn. 

Por lo que necesitamos très axiomas bâsicos, y también uno para cada predicado y 
funciôn: 


Vx x = x 

Vx, y x = y => y = x 

Vx, y, z x = yAy = z=>x = x 

Vx, y x = y => (P,(x) <=> Pfy)) 

Vx, y x = y => (P 2 (x) <=> P 2 (y)) 

Vw, x, y, z w = y a x = z => (Fj(w, x) = F,(y, z)) 

Vw, x, y, z w = yAx = z=> (F 2 ( w, x) = F 2 (y, z)) 

Dadas estas sentencias, un procedimiento de inferencia estândar como la resolucion pue¬ 
de realizar tareas que requieran razonamiento con igualdad, taies como la resolucion de 
ecuaciones matemâticas. 

Otra forma de tratar la igualdad es mediante una régla de inferencia adicional. La 
régla mâs sencilla, denominada dentodulaciôn, toma una clâusula unitariax = y y sus- 
tituye la y por cualquier término que se unifica con x en cualquier otra clâusula. Mâs for- 
malmente, tendriamos 

• Demodulaciôn: para cualquier término x, y y z, donde Unifica(x, z) = d y m H \z] 
es un literal que contiene a z: 

x = y, m l v ... v m n [z] 
m l v ... vw„[Sust( 0,y) 

La demodulaciôn se utiliza por lo general para simplificar expresiones que utilizan gru- 
pos de aserciones del tipo x + 0 = x, x 1 = x, etc. La régla también se puede ampliar 
para manejar clâusulas no unitarias en las que aparece una igualdad de literales: 
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• Paramodulaciôn: para cualquier término x,yyz, donde Unifica(x, z) = 6 , 

€j v ... v £ k vx = y, m 1 v ... v m n [z ] 

Sust(0, v ... v i k v m 1 v ... v m n \y\) 

A diferencia de la demodulaciôn, la paramodulaciôn nos lleva a un procedimiento de in- 
ferencia completo para la lôgica de primer orden con igualdad. 

Un tercer enfoque maneja el razonamiento con igualdad insertândolo por entero en 
un algoritmo de unificaciôn extendida. Es decir, los términos son unificables si son pro- 
bablemente iguales bajo alguna sustituciôn, donde «probablemente» indica algün tipo 
de razonamiento con igualdad. Por ejemplo, los términos 1 + 2 y 2 + 1 normalmente 
no son unificables, pero un algoritmo de unificaciôn que supiera que x + y = y + x po- 
drfa unificarlos con la sustituciôn vacia. Este tipo de unificaciôn de ecuaciones se pue- 
de realizar mediante algoritmos eficientes disenados para los axiomas concretos que se 
vayan a utilizar (conmutatividad, asociatividad, etc.); mas que a través de una inferen- 
cia explicita con dichos axiomas. Los demostradores de teoremas que utilizan esta téc- 
nica estân estrechamente relacionados con los sistemas de programaciôn lôgica que se 
describieron en el Apartado 9.4. 

Estrategias de resoluciôn 

Sabemos que las aplicaciones repetidas de la régla de inferencia de resoluciôn finalmente 
encontrarân una demostraciôn si ésta existe. En esta subsecciôn, examinaremos las es¬ 
trategias que ayudan a encontrar demostraciones eficientemente. 

Resoluciôn unitaria 

Esta estrategia prefiere realizar las resoluciones cuando una de las sentencias es un üni- 
co literal (también conocida como clâusula unitaria). La idea en que se basa la estra¬ 
tegia es que estamos intentando producir una clâusula vacia, asi que podrfa ser bueno 
preferir inferencias que produzcan clâusulas mas cortas. Resolviendo una sentencia uni¬ 
taria (como P) con otra sentencia (como ~>P v ~<Q v R) siempre obtenemos una clâusu¬ 
la (en este caso ->Q v R) que es mâs corta que la anterior. Cuando se intentô por primera 
vez la estrategia de preferencia unitaria en 1964 se obtuvo a una aceleraciôn considéra¬ 
ble del proceso, y se hizo viable demostrar teoremas que no se podian manejar sin di- 
cha preferencia. Sin embargo, la preferencia unitaria por si misma no reduce lo suficiente 
el factor de ramificaciôn en problemas de tamano mediano para hacerlos resolubles me¬ 
diante la resoluciôn. No obstante, es una heuristica ütil que se puede combinar con otras 
estrategias. 

La resoluciôn unitaria es una variante restringida de la resoluciôn, en la que cada 
paso de resoluciôn debe involucrar a una clâusula unitaria. En general, la resoluciôn uni¬ 
taria es incompleta, pero es compléta con las bases de conocimiento de Horn. Las de¬ 
mostraciones mediante resoluciôn unitaria aplicadas a las bases de conocimiento de Horn 
se parecen bastante al encadenamiento hacia delante. 
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Resoluciôn mediante conjunto soporte 

Las preferencias que intentan antes ciertas resoluciones son de alguna ayuda, pero por 
lo general es mas efectivo intentar eliminar completamente algunas resoluciones po- 
tenciales. La estrategia del conjunto soporte hace justamente eso. Comienza por identi- 
ficar un subconjunto de sentencias denominado conjunto soporte. Cada resoluciôn 
combina una sentencia del conjunto soporte con otra sentencia y anade el resolvente al 
conjunto soporte. Si el conjunto soporte es relativamente pequeno respecto a la base de 
conocimiento, el espacio de büsqueda se reduce drâsticamente. 

Tenemos que ser cautos con este enfoque, porque una elecciôn errônea del con¬ 
junto soporte harâ que el algoritmo sea incompleto. Sin embargo, si elegimos el 
conjunto soporte S de tal manera que el resto de sentencias sean conjuntamente satis- 
facibles, entonces la resoluciôn mediante el conjunto soporte sera compléta. Un en¬ 
foque habituai es utilizar una peticiôn negada como el conjunto soporte, bajo la 
asunciôn que la base de conocimiento original es consistente. (Después de todo, si es 
consistente, entonces el hecho de la peticiôn que se sigue es vacuo.) La estrategia del 
conjunto soporte tiene la ventaja adicional de generar ârboles de demostraciôn que a 
menudo son faciles de entender por las personas, ya que éstas estân orientadas al ob- 
jetivo. 


Resoluciôn lineal 

En la estrategia de resoluciôn de entrada cada resoluciôn combina una de las sen¬ 
tencias de entrada (de la BC o de la peticiôn) con alguna otra sentencia. La demos¬ 
traciôn de la Figura 9.11 solo utiliza resoluciones de entrada y tiene la forma 
caracteristica de una «espina de pez» con sentencias simples que se van combinan- 
do en la columna. En las bases de conocimiento de Horn, el Modus Ponens es un tipo 
de estrategia de resoluciôn de entrada, porque combina una implicaciôn de la BC ori¬ 
ginal con algunas otras sentencias. Por lo tanto, no nos sorprende que la resoluciôn 
de entrada sea compléta con las bases de conocimiento que estân en forma de Horn, 
pero es incompleta en el caso general. La estrategia de resoluciôn lineal es una ge- 
neralizaciôn leve que permite que P y Q se resuelvan juntas aunque P esté en la BC 
original o P sea un padre de Q en el ârbol de demostraciôn. La resoluciôn lineal es 
compléta. 


Subsunciôn 

El método de subsunciôn élimina todas las sentencias que estân subsumidas por (por 
ejemplo, son mâs especificas que) una sentencia existente en la BC. Por ejemplo, si P(x) 
estâ en la BC, entonces no tiene sentido anadir P (A) y aün menos sentido tiene anadir 
P (A) v Q(B). La subsunciôn ayuda a mantener la BC con un tamano relativamente pe¬ 
queno, y de esta manera nos ayuda a establecer que el espacio de büsqueda sea, tam- 
bién, relativamente pequeno. 
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Demostradores de teoremas 

Los demostradores de teoremas (también conocidos como razonadores automâticos) se 
diferencian de la programaciôn logica en dos cosas. Primero, muchos lenguajes de pro- 
gramaciôn logica solo manejan clâusulas de Hom, mientras que los demostradores de 
teoremas aceptan la logica de primer orden en su totalidad. Segundo, los programas en 
Prolog entrelazan la logica y el control. La elecciôn del programador sobre A : - B, c 
en vez de A : - c, B afecta a la ejecuciôn del programa. En muchos demostradores 
de teoremas, la forma sintâctica escogida para las sentencias no afecta a los resultados. 
Los demostradores de teoremas todavia necesitan la informacion de control para poder 
operar eficientemente, pero por lo general, dicha informacion se mantiene separada de 
la base de conocimiento, en vez de formar parte de la propia representaciôn del conoci- 
miento. Gran parte de la investigaciôn en demostradores de teoremas se basa en encon- 
trar estrategias de control que sean de utilidad general al mismo tiempo que aumenten 
la velocidad. 


Diseno de un demostrador de teoremas 

En esta secciôn describiremos el demostrador de teoremas Otter (Organized Tecniques 
for Theorem-proving and Effective Research ) (McCune, 1992), con una atenciôn espe- 
cial en su estrategia de control. Al preparar un problema para Otter el usuario debe di- 
vidir el conocimiento en cuatro partes: 

• Un conjunto de clâusulas, conocido como el conjunto soporte (o es), que define 
los hechos relevantes acerca del problema. Cada paso de la resoluciôn resuelve un 
miembro del conjunto soporte frente a otro axioma, de esta manera la büsqueda 
se focaliza en el conjunto soporte. 

• Un conjunto de axiomas utilizables que son externos al conjunto soporte. Es- 
tos proporcionan el conocimiento base acerca del dominio del problema. El li¬ 
mite entre lo que forma parte del problema (y por lo tanto del es) y lo que es 
conocimiento base (y por lo tanto de los axiomas utilizables) se déjà a elecciôn 
del usuario. 

• Un conjunto de ecuaciones conocido como rescritores o demoduladores. Aun- 
que los demoduladores son ecuaciones, siempre se aplican en la direcciôn iz- 
quierda a derecha. Por lo tanto, definen la forma canônica en la que todos los 
términos serân simplificados. Por ejemplo, el demodulador x + 0 = x dice que cada 
término del tipo x + 0 debe reemplazarse por el término x. 

• Un conjunto de paramétras y clâusulas que definen la estrategia de control. En con¬ 
crète, el usuario especifica una funciôn heurfstica para controlar la büsqueda, y una 
funciôn de filtrado para eliminar aquellos subobjetivos que no interesan. 

Otter trabaja resolviendo, de forma continuada, un elemento del conjunto soporte fren¬ 
te a uno de los axiomas utilizables. A diferencia del Prolog, utiliza un tipo de büsqueda 
de primero el mejor. Su funciôn heuristica mide el «peso» de cada clâusula, donde las 
mâs ligeras tienen preferencia. La elecciôn exacta de la heuristica dépende del usuario, 
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pero por lo general, el peso de una clâusula deberfa ser correlacionada con su tamano y 
dificultad. Las clâusulas unitarias se tratan como ligeras; de este modo, la büsqueda se 
puede ver como una generalizaciôn de la estrategia de preferencia unitaria. En cada paso, 
Otter mueve la clâusula «mas ligera» del conjunto soporte a una lista, a la que llama- 
mos lista utilizable, y anade a dicha lista las consecuencias inmediatas de resolver la clâu¬ 
sula con los elementos de la lista. Otter finaliza cuando ha encontrado una refutaciôn 
o no hay mâs clâusulas en el conjunto soporte. En la Figura 9.14 se muestra el algorit- 
mo en mâs detalle. 


procedimiento Otter(cs, utilizable) 

entradas: es, el conjunto soporte: clâusulas que definen el problema (una variable global) 
utilizable, conocimiento base potencialmente relevante para el problema 

repetir 

clâusula <— el miembro mâs ligero de es 
mover clâusula de es a utilizable 
PROCESA(lNFiERE(c/fli«M/a, utilizable), es) 
hasta es = [ ] o se ha encontrado una refutaciôn 


funciôn INFIERE(c/dMi , M/a, utilizable) devuelve clâusulas 

resuelve clâusula con cada miembro de utilizable 
devolver las clâusulas résultantes después de aplicar FILTRO 


procedimiento Procesa (clâusulas, es) 

para cada clâusula en clâusulas hacer 
clâusula <— SïMPumcA(clâusula) 
fusiona literales idénticos 
descarta la clâusula si es una tautologia 
es <— [clâusula - ci] 

si clâusula no tiene literales entonces se ha encontrado una refutaciôn 
si clâusula tiene un literal entonces averigua si hay refutaciôn unitaria 


Figura 9.14 Esquema del demostrador de teoremas Otter. El control heuristico se aplica en la 
selecciôn de la clâusula «mâs ligera» y en la funciôn Filtro, que élimina las clâusulas que no se 
consideran interesantes. 


Ampliar el Prolog 

Una alternativa en la construccion de un demostrador de teoremas es comenzar con 
un compilador de Prolog y ampliarlo para conseguir un razonador solido y complé¬ 
ta para toda la logica de primer orden. Este era el enfoque que se tomo en el Prolog 
Technology Theorem Prover, o PTTP (Stickel, 1988). El PTTP incluye cinco cam- 
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bios significatives aplicados al Prolog para conseguir completitud y una mayor ex- 
presividad: 


BL0QUE0 


• La comprobacion de ocurrencias se introduce en la rutina de unificacion para ha- 
cerla solida. 

• La büsqueda de primera en profundidad se reemplaza por una büsqueda de pro- 
fundidad iterativa. Esto hace que la estrategia de büsqueda sea compléta y que tome 
solo un factor constante de tiempo. 

• Se permite utilizar literales negados (como ->P(x)). En la implementaciôn, hay dos 
rutinas separadas, una que intenta demostrar P y otra que intenta demostrar ->P. 

• Una clâusula con n âtomos se almacena como n réglas diferentes. Por ejemplo, A 
<= B a C también podria almacenarse como ~>B <= C a -i A y como ->C <=B a ~<A. 
Esta técnica, conocida como bloqueo, significa que el objetivo actual solo nece- 
sita ser unificado con la cabeza de cada clâusula, y aün permite un manejo ade- 
cuado de la negacion. 

• La inferencia se hace compléta (aun con clâusulas de Horn) anadiendo la régla de 
resolucion de entrada lineal. Si el objetivo actual se unifica con la negacion de uno 
de los objetivos de la pila, entonces el objetivo se puede considerar resuelto. Esta 
es una forma de razonamiento por contradiccion. Suponga que el objetivo origi¬ 
nal es P y esto se reduce a una sérié de inferencia con el objetivo ~P. Esto esta- 
blece que ~>P => P, que es équivalente logicamente a P. 


A pesar de estos cambios, PTTP mantiene las caracteristicas que hacen que el Prolog 
sea râpido. La unificacion todavia se hace modificando las variables directamente, des- 
ligândolas mediante el relajamiento de la pila en la vuelta hacia atrâs ( backtracking ). La 
estrategia de büsqueda todavia se basa en la resolucion de entrada, entonces cada reso- 
luciôn se realiza a través de una de las clâusulas del enunciado original del problema (mâs 
que con una clâusula derivada). Esto hace que sea viable compilar todas las clâusulas 
del enunciado original del problema. 

El principal inconveniente del PTTP es que el usuario tiene que renunciar a todo el 
contrai sobre la büsqueda de las soluciones. Cada régla de inferencia se utiliza por el 
sistema tanto en su forma original como en su forma contrapositiva. Esto nos puede 11e- 
var a büsquedas nada intuitivas. Por ejemplo, considéré la régla 


(/(-A y) = f(a, b)) <= (x = a) a (y = b) 


Como régla de Prolog, es algo razonable intentar demostrar que los dos términos de / 
son iguales. Pero el PTTP también generaria su contrapositiva: 


(x A a) <= (f(x, y) A f(a, b)) a (y = b) 


Lo que parece un derroche el intentar demostrar que los dos términos xy a son diferentes. 


Demostradores de teoremas como asistentes 

Hasta ahora, hemos enfocado los sistemas de razonamiento como agentes indépendan¬ 
tes que tienen que tomar decisiones y actuar por si mismos. Otro uso de los demostra¬ 
dores de teoremas es como asistentes, proporcionando consejo a, por ejemplo, un 
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matemâtico. De este modo, un matemâtico actüa como un supervisor, seleccionando la 
estrategia para determinar qué hacer seguidamente y pidiendo al demostrador de teore- 
mas que rellene los detalles. Este mecanismo alivia, en parte, el problema de la semi- 
decidibilidad, porque el supervisor puede cancelar una peticion e intentar otro enfoque 
si la peticion esta consumiendo mucho tiempo. Un demostrador de teoremas también pue¬ 
de actuar como un comprobador de demostraciones, donde la demostraciôn la da una 
persona en forma de un conjunto de pasos algo extenso, y las inferencias concretas que 
se necesitan para demostrar que cada paso es sôlido las realiza el sistema. 

Un razonador Socrâtico es un demostrador de teoremas cuya funciôn Pregunta 
es incompleta, pero que siempre puede llegar a una soluciôn si le han dado el orden co¬ 
rrecte de peticiones. De este modo, los razonadores Socrâticos son buenos asistentes, dado 
que haya un supervisor que envie las sériés de llamadas correctas a Pregunta. Ontic 
(McAllester, 1989) es un sistema de razonamiento Socrâtico para matemâticos. 


Usos prâcticos de los demostradores de teoremas 

Los demostradores de teoremas han surgido con resultados matemâticos muy origina¬ 
les. El programa Sam ( Semi-Automated Mathematics ) fue el primera en demostrar un lema 
de la teoria de reticulos (Guard et al., 1969). El programa Aura también ha respondido 
a preguntas abiertas en diversas âreas de las matemâticas (Wos y Winker, 1983), el de¬ 
mostrador de teoremas Boyer-Moore (Boyer y Moore, 1979) se ha utilizado y ampliado 
durante muchos anos y se utilizô por Natarajan Shankar para dar la primera demostra¬ 
ciôn formai rigurosa sobre el Teorema de la Incompletitud de Godel (Shankar, 1986). El 
programa Otter es uno de los mejores demostradores de teoremas; se ha utilizado para 
resolver diversas preguntas abiertas sobre lôgica combinatoria. La mâs famosa es la que 
concierne al âlgebra de Robbins. En 1933, Herbert Robbins propuso un conjunto sen- 
cillo de axiomas que intentaban définir el âlgebra Booleana, pero no se pudo encontrar 
ninguna prueba que los demostrara (a pesar del trabajo serio de diversos matemâticos in- 
cluyendo al propio Alfred Tarski). En octubre de 1996, después de oc ho dias de câlcu- 
lo, el EQP (una variante del Otter) encontre una demostraciôn (McCune, 1997). 

Los demostradores de teoremas se pueden aplicar a los problemas relacionados con 
la verifïcaciôn y sintesis del hardware y software, porque ambos dominios pueden dis- 
poner de axiomatizaciones correctas. De este modo, la investigaciôn en la demostraciôn 
de teoremas se lleva a cabo en los campos del diseno del hardware, los lenguajes de pro- 
gramaciôn, y la ingenieria del software, no solo en la IA. En el caso del software, los 
axiomas definen las propiedades de cada elemento sintâctico del lenguaje de progra- 
maciôn. (Razonar acerca de los programas es bastante parecido a razonar acerca de las 
acciones en el câlculo de situaciones.) Un algoritmo se verifica demostrando que sus sa- 
lidas respetan las especificaciones de todas las entradas. El algoritmo RSA de encripta- 
ciôn de clave püblica y el algoritmo de emparejamiento de texto de Boyer-Moore han 
sido verificados de este modo (Boyer y Moore, 1984). En el caso del hardware, los axio¬ 
mas describen las interacciones entre las seriales y los elementos del circuito. ( Véase Ca- 
pitulo 8 para un ejemplo.) El diseno de un sumador de 16 bits ha sido verificado por el 
AURA (Wojcik, 1983). Los razonadores especialmente disenados para la verificaciôn 
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han sido capaces de verificar CPUs enteras, incluyendo sus propiedades temporales (Sri- 
vas y Bickford, 1990). 

La smtesis formai de algoritmos fue uno de los primeros usos de los demostradores de 
teoremas, tal como perfila Cordell Green (1969a), quien trabajô sobre las ideas iniciales 
de Simon (1963). La idea es demostrar un teorema de manera que «exista un programa p 
que satisfaga ciertas especificaciones». Si la demostraciôn esta restringida a ser construc- 
sîntesis deductiva tiva el programa se puede obtener. Aunque, tal como se le llama, la smtesis deductiva no 
ha sido automatizada totalmente, y aün no ha conseguido ser viable para la programaciôn 
de proposito general, la smtesis deductiva guiada ha tenido éxito en el diseno de diversos 
algoritmos bastante sofisticados y novedosos. Los programas de smtesis para proposito es- 
pecifico también son un area activa de investigaciôn. En el area de smtesis del hardware, 
el demostrador de teoremas AURA se ha aplicado en el diseno de circuitos que son mas 
compactos que cualquier diseno anterior (Wojciechowski y Wojcik, 1983). Para muchos 
disenos de circuitos, la logica proposicional es suficiente porque el conjunto de proposi- 
ciones de interés esta fijado por el conjunto de elementos del circuito. La aplicaciôn de la 
inferencia proposicional en la smtesis del hardware es actualmente una técnica estândar 
que tiene muchas utilidades a gran escala (véase, por ejemplo, Nowick et al., (1993)). 

Actualmente, estas mismas técnicas se estân comenzando a aplicar en la verificacion 
del software, por sistemas como el comprobador de modelos SPIN (Holzmann, 1997). 
Por ejemplo, el programa de control espacial del Agente Remoto fue verificado antes y 
después del vuelo (Havelund et al., 2000). 


9.6 Resumen 


Hemos presentado un anâlisis de la inferencia logica en logica de primer orden, y un nü- 
mero de algoritmos para realizarla. 

• Un primer enfoque utiliza réglas de inferencia para instanciar los cuantificadores 
y proposicionalizar el problema de inferencia. Por lo general este enfoque es muy 
lento. 

• El uso de la unificaciôn para obtener las sustituciones adecuadas de las variables 
élimina el paso de instanciaciôn en las demostraciones de primer orden, haciendo 
que el proceso sea mucho mas eficiente. 

• Una version elevada del Modus Ponens utiliza la unificaciôn para proporcionar 
una régla de inferencia natural y potente, el Modus Ponens Generalizado. Los 
algoritmos de encadenamiento hacia delante y de encadenamiento hacia atrâs 
aplican esta régla a conjuntos de clâusulas positivas. 

• El Modus Ponens Generalizado es compléta para las clâusulas positivas, aunque 
el problema de la implicaciôn es semidecidible. Para los programas Datalog que 
tienen clâusuas positivas con funciones libres, la implicaciôn es decidible. 

• El encadenamiento hacia delante se utiliza en las bases de datos deductivas, don- 
de se puede combinar con las operaciones de las bases de datos relacionales. Tam¬ 
bién se utiliza en los sistemas de producciôn, que pueden hacer actualizaciones 
eficientes en conjuntos de réglas muy grandes. 
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• El encadenamiento hacia delante es completo en los programas Datalog y corre 
en tiempo polinômico. 

• El encadenamiento hacia atrâs se utiliza en los sistemas de prograinaciôn lôgi- 
ca como el Prolog, que emplea una sofisticada tecnologia de compilaciôn para pro- 
porcionar una inferencia muy râpida. 

• El encadenamiento hacia atrâs sufre de inferencias redundantes y bucles infinitos; 
esto se puede aliviar mediante la memorizaciôn. 

• La régla de inferencia de la resoluciôn generalizada proporciona un sistema de de- 
mostraciôn completo en lôgica de primer orden, utilizando bases de conocimien- 
to en forma normal conjuntiva. 

• Existen diversas estrategias para reducir el espacio de büsqueda de un sistema de 
resoluciôn sin comprometer la completitud. Los demostradores de teoremas efi- 
cientes, basados en la resoluciôn, se han utilizado para proporcionar teoremas ma- 
temâticos de interés y para verificar y disenar hardware y software. 



SILOGISMO 


Notas bibliogrâficas e histôricas 

La inferencia lôgica fue estudiada extensivamente por los matemâticos griegos. El tipo 
de inferencia estudiado mas cuidadosamente por Aristôteles fue el silogismo, que es un 
tipo de régla de inferencia. Los silogismos de Aristôteles incluian elementos de la lôgi¬ 
ca de primer orden, como la cuantificaciôn, pero estaba restringida a los predicados una- 
rios. Los silogismos estaban categorizados mediante las «figuras» y los «modos», 
dependiendo del orden de los términos (a los que deberiamos llamar predicados) en las 
sentencias, el grado de generalidad (a lo que hoy en dia deberiamos interpretar a través 
de los cuantificadores) aplicado a cada término, y si cada término estaba negado. El si¬ 
logismo mas importante es el primer modo de la primera figura: 


Todo S es M. 

Todo M es P. 

Por lo tanto, todo S es P. 


Aristôteles intentô demostrar la validez de otros silogismos mediante su «reducciôn» a 
aquellos de la primera figura. Era mucho menos preciso en describir lo que esta «reduc¬ 
ciôn» debe implicar que en la caracterizaciôn de las propias figuras y modos silogisticos. 

Gottlob Frege, quien desarrollô totalmente la lôgica de primer orden en 1879, basô 
su sistema de inferencia en una gran colecciôn de esquemas lôgicamente vâlidos junto 
a una sola régla de inferencia, el Modus Ponens. Frege tomô ventaja del hecho de que 
el efecto de una régla de inferencia de la forma «De P, inferir Q» se puede simular apli- 
cando el Modus Ponens a P junto a un esquema vâlido lôgicamente como P =$ Q. Este 
estilo «axiomâtico» de exposiciôn, utilizando el Modus Ponens junto a un numéro de 
esquemas lôgicamente vâlidos, fue empleado por un numéro de lôgicos después de Fre¬ 
ge; y fue utilizado, de la forma mâs notable, en el Principia Mathematica (Whitehead 
y Russell, 1910). 

Las réglas de inferencia, a diferencia de los esquemas axiomâticos, fueron el foco 
principal de la deducciôn natural, introducida por Gerhard Gentzen (1934) y por Sta- 
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nislaw Jaskowski (1934). A la deducciôn natural se le denomina «natural» porque no ne- 
cesita la conversion a la (ilegible) forma normal, y porque sus réglas de inferencia in- 
tentan parecer cercanas a las personas. Prawitz (1965) proporciona un tratamiento 
extenso acerca de la deducciôn natural. Gallier (1986) utiliza el enfoque de Gentzen para 
exponer los cimientos teôricos de la deducciôn automâtica. 

La invenciôn de la forma clausular fue un paso cmcial en el desarrollo profundo 
del anâlisis matemâtico en lôgica de primer orden. Whitehead y Russell (1910) expu- 
sieron las denominadas réglas de paso (el término realmente pertenece Herbrand 
(1930)) que se utilizan para mover los cuantificadores al frente de las formulas. Las cons¬ 
tantes de Skolem y las funciones de Skolem fueron introducidas lo suficientemente por 
Thoralf Skolem (1920). El procedimiento general de skolemizaciôn se dio por Skolem 
(1928), junto al importante concepto de universo de Herbrand. 

El teorema de Herbrand, que recibe el nombre del lôgico francés Jacques Herbrand 
(1930), ha jugado un papel vital en el desarrollo de los métodos de razonamiento auto- 
mâtico, tanto antes como después de la introducciôn de la resoluciôn de Robinson. Esto 
se refleja en nuestra referencia al «universo de Herbrand» mas que al «universo de Sko¬ 
lem», aun pensando que fue realmente Skolem el que inventé el concepto. Herbrand tam- 
bién puede ser considerado como el inventor de la unificaciôn. Gôdel (1930) trabajô con 
base en las ideas de Skolem y Herbrand para demostrar que la lôgica de primer orden 
tiene un procedimiento de demostraciôn compléta. Alan Turing (1936) y Alonzo Church 
(1936) demostraron, al mismo tiempo y utilizando diferentes demostraciones, que la va¬ 
lidez en lôgica de primer orden no era decidible. El excelente texto de Enderton (1972) 
explica todos estas resultados de un modo riguroso aunque de manera bastante com- 
prensible. 

Aunque McCarthy (1958) habia sugerido el uso de la lôgica de primer orden para la 
representaciôn y el razonamiento en la IA, el primero de este tipo de sistemas fue desa- 
rrollado por los lôgicos interesados en la demostraciôn de teoremas matemâticos. Fue 
Abraham Robinson quien propuso el uso de la proposicionalizaciôn y del teorema de 
Herbrand, y Gilmore (1960) fue quien escribiô el primer programa basado en este en¬ 
foque. Davis y Putnam (1960) utilizaron la forma clausular y desarrollaron un progra¬ 
ma que intentaba encontrar refutaciones mediante la sustituciôn de las variables de los 
miembros del universo de Herbrand para generar clâusulas base y enfonces averiguar si 
habia inconsistencias entre las clâusulas base. Prawitz (1960) desarrollo la idea clave para 
permitir que el anâlisis de la inconsistencia proposicional dirija el proceso de büsque- 
da, y generar términos del universo de Herbrand solo cuando es necesario hacerlo y asi 
poder establecer la inconsistencia proposicional. Después de un largo desarrollo hecho 
por otros investigadores, esta idea le llevô a J. A. Robinson (no hay relaciôn) a desarrollar 
el método de la resoluciôn (Robinson, 1965). El denominado método inverso desarro- 
llado por el investigador soviético S. Maslov (1964, 1967), mâs o menos en la misma 
época, y basado en unos principios algo diferentes, ofrece ventajas computacionales si- 
milares sobre la proposicionalizaciôn. El método de conexiôn de Wolfgang Bibel (1981) 
se puede ver como una extension de este enfoque. 

Después del desarrollo de la resoluciôn, el trabajo sobre la inferencia en lôgica de 
primer orden se produjo en varias direcciones diferentes. En la IA, la resoluciôn se adop¬ 
ta en los sistemas de respuesta a peticiones por Cordell Green y Bertram Raphaël (1968). 
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Un enfoque algo menos formai se tomô por Cari Hewitt (1969). Su lenguaje Planner, 
aunque nunca implementado en su totalidad, fue un precursor de la programacion lôgi- 
ca e inclula directivas para el encadenamiento hacia delante y hacia atrâs, y para la ne- 
gaciôn como fallo. Un subconjunto conocido como Micro-Planner (Sussman y 
Winograd, 1970) se implementô y utilizô en el sistema de comprensiôn del lenguaje na- 
tural Shrdlu (Winograd, 1972). Las implementaciones mas recientes en IA ponen una 
buena cantidad de esfuerzo en las estmcturas de datos que permitirian una recuperaciôn 
eficiente de los hechos; este trabajo esta cubierto en los textos de programacion en IA 
(Charniak et al., 1987; Norvig, 1992; Forbus y de Kleer, 1993). 

A principios de los 70, el encadenamiento hacia delante estaba bien establecido 
en la IA como una alternativa comprensible a la resoluciôn. Se utilizô en una amplia 
variedad de sistemas, desde el demostrador de teoremas de geometrla de Nevins (Ne- 
vins, 1975) al sistema experto RI para la configuraciôn de Vax (McDermott, 1982). 
Las aplicaciones en IA por lo general manejaban grandes cantidades de réglas, as! que 
era importante desarrollar una tecnologia eficiente para el emparejamiento de réglas, 
en concreto para las actualizaciones incrémentales. La tecnologia para los sistemas 
de producciôn se desarrollô para apoyar este tipo de aplicaciones. El lenguaje de sis¬ 
tema de producciôn Ops-5 (Forgy, 1981; Brownston et al., 1985) se utilizô para el RI 
y para la arquitectura cognitiva SOAR (Laird et al., 1987). El Ops-5 incorporaba el 
proceso de emparejamiento rete (Forgy, 1982). El Soar, que généra réglas nuevas para 
depositar los resultados de câlculos previos, puede crear conjuntos de réglas muy 
grandes, acerca de 1.000.000 de réglas en el caso del sistema Tacair-Soar para con- 
trolar un avion de caza simulado (Jones et al., 1998). CLIPS (Wygant, 1989) fue un 
lenguaje basado en C para sistemas de producciôn desarrollado en la NASA que per- 
mitiô una mejor integraciôn con otros paquetes de software, hardware, y sistemas de 
sensores, y se utilizô en la automatizaciôn de naves espaciales y diversas aplicaciones 
militares. 

El area de investigaciôn conocida como bases de datos deductivas también ha con- 
tribuido bastante a nuestro entendimiento de la inferencia hacia delante. Comenzô en una 
sesiôn de trabajo en Toulouse en 1977, organizada por Jack Minker, en la que juntô a 
expertos en inferencia lôgica y en sistemas de bases de datos (Gallaire y Minker, 1978). 
Una révision histôrica reciente (Ramakrishnan y Ullman, 1995) dice, «los sistemas de 
[bases de datos] deductivas son un intento de adaptar el Prolog, que tiene un punto de 
vista del mundo de “datos pequenos”, a un mundo de “datos grandes”.» De este modo, 
pretende fundir la tecnologia de bases de datos relacionales, que esta disenada para re- 
cuperar grandes conjuntos de hechos, con la tecnologia de inferencia del Prolog, que por 
lo general récupéra un hecho cada vez. Algunos de los textos sobre bases de datos de¬ 
ductivas son el de Ullman (1989) y el de Ceri et al., (1990). 

Los trabajos influyentes de Chandra y Harel (1980) y el de Ullman (1985) condu- 
jeron a la adopciôn del Datalog como un lenguaje estândar para las bases de datos de¬ 
ductivas. La inferencia «de abajo arriba», o el encadenamiento hacia delante, también 
se convirtieron en el estândar, en parte porque evitan los problemas con la no termina- 
ciôn y el câlculo redundante que se presentan en el encadenamiento hacia atrâs, y en par¬ 
te porque tiene una implementaciôn mucho mâs natural en términos de las operaciones 
de las bases de datos relacionales. El desarrollo de la técnica de los conjuntos mâgicos 
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PETICIÔN CONJUNTIVA 

COMPLEJIDAD DE 
DATOS 


RESOLUCIÔN-SL 

RESOLUCIÔN-SLD 


para la reescritura de las réglas de Bancilhon et al., (1986) le permitiô al encadenamiento 
hacia delante coger prestado la ventaja de la orientaciôn al objetivo del encadenamien¬ 
to hacia atrâs. Igualândolo a la carrera armamentistica, los métodos de programacion 16- 
gica tableados ( véase Apartado 9.6) permitieron la ventaja de la programacion logica 
desde el encadenamiento hacia delante. 

Gran parte de nuestro entendimiento de la complejidad de la inferencia logica nos 
ha venido de la comunidad de las bases de datos deductivas. Chandra y Merlin (1977) 
fueron los primeras en demostrar que el emparejamiento de una ünica régla no recursi- 
va (una peticiôn conjuntiva en la terminologia de las bases de datos) puede ser NP-duro. 
Kuper y Vardi (1993) propusieron la complejidad de datos (es decir, la complejidad 
como una funciôn del tamano de la base de datos, tratando el tamano de la régla como 
constante) como una medida ütil en la respuesta a una peticiôn. Gottlob et al., (1999b) 
discuten la conexiôn entre las peticiones conjuntivas y la satisfacciôn de restricciones, 
mostrando como la descomposiciôn de hiperârboles puede optimizar el proceso de em¬ 
parejamiento. 

Tal como hemos comentado anteriormente, el encadenamiento hacia atrâs en la 
inferencia logica apareciô en el lenguaje Planner de Hewitt (1969). La programacion 
logica per se se desarrollô independientemente a este trabajo. Una forma restringida 
de la resoluciôn lineal, denominada resoluciôn-SL fue desarrollada por Kowalski y 
Kuehner (1971), construida a partir de la técnica de eliminaciôn de modelos de Lo- 
veland (1968); cuando se aplicô a las clâusulas positivas, pasô a ser la resoluciôn-SLD, 
que se presta a la interpretaciôn de las clâusulas positivas como programas (Kowal¬ 
ski, 1974, 1979a, 1979b). Mientras tanto, en 1972, el investigador francés Alain Col- 
merauer habia desarrollado e implementado Prolog con el propôsito de analizar el 
lenguaje natural; las clâusulas de Prolog se pensaron inicialmente como réglas de gra- 
mâticas libres de contexto (Roussel, 1975; Colmerauer et al., 1973). Gran parte de la 
base teôrica de la programacion logica se desarrollô por Kowalski, trabajando con Col¬ 
merauer. La definiciôn semântica mediante mmimos puntos fijos es de Van Emden y 
Kowalski (1976). Kowalski (1988) y Cohen (1988) nos proporcionan unos buenos anâ- 
lisis histôricos de los orfgenes del Prolog. Foundations on Logic Programming (Lloyd, 
1987) es un anâlisis teôrico de los fundamentos del Prolog y otros lenguajes de pro- 
gramaciôn logica. 

Los compiladores eficientes para Prolog estân basados, por lo general, en el mode- 
lo de câlculo de la Warren Abstract Machine (WAM) de David H. D. Warren (1983). Van 
Roy (1990) que mostrô la aplicaciôn de técnicas de compilaciôn adicionales, como el 
tipo de inferencia, hizo programas en Prolog que eran competitivos con programas en 
C en lo referente a la velocidad. El proyecto Japanese Fifth Génération, un esfuerzo de 
investigaciôn de 10 anos, que comenzô en 1982, estaba totalmente basado en el Prolog 
para desarrollar sistemas inteligentes. 

Los métodos para evitar los bucles innecesarios en los programas lôgicos recursivos 
fueron desarrollados independientemente por Smith et al., (1986) y por Tamaki y Sato 
(1986). El ültimo trabajo también incluia la memorizaciôn en los programas lôgicos, un 
método desarrollado extensivamente como la programacion logica tableada por Da¬ 
vid S. Warren. Swift y Warren (1994) muestran como ampliar la WAM para manejar el 
tableado, permitiendo a los programas en Datalog ejecutarse en un orden de magnitud 
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mas râpida que los sistemas de bases de datos deductivas mediante el encadenamiento 
hacia delante. 

El trabajo teôrico inicial sobre la programaciôn logica con restricciones fue de Jaf- 
far y Lassez (1987). Jaffar et al., (1992a) desarrollaron el sistema CLP(R) para mane- 
jar restricciones con valores reales. Jaffar et al., (1992b) generalizaron la WAM para 
generar la CLAM ( Constraint Logic Abstract Machine ) para especificar las implemen- 
taciones del CLP. Ait-Kaci y Podelski (1993) describen un lenguaje sofisticado deno- 
minado LIEE, que combina CLP con la programaciôn funcional y con el razonamiento 
sobre herencia. Kohn (1991) describe un proyecto ambicioso para utilizar la programa¬ 
ciôn logica con restricciones como el fundamento de una arquitectura de control en tiem- 
po real, con aplicaciones de pilotos totalmente automatizados. 

Hay un buen numéro de libres acerca de la programaciôn logica y el Prolog. Logic 
for Problem Solving (Kowalski, 1979b) es uno de los textos iniciales sobre la progra¬ 
maciôn logica en general. Entre los textos sobre el Prolog encontramos el de Clocksin 
y Mellish (1994), Shoham (1994) y Bratko (2001). Marriott y Stuckey (1998) propor- 
cionan una excelente cobertura de la PLR. Hasta su cierre en 2000, la Journal of Logic 
Programming era la revista de partida; ahora ha sido reemplazada por Theory and Prac¬ 
tice of Logic Programming. Entre las conferencias acerca de la programaciôn logica en¬ 
contramos la International Conférence on Logic Programming (ICLP) y el International 
Logic Programming Symposium (ILPS). 

La investigaciôn en demostraciôn de teoremas matemâticos comenzô aün antes 
de los primeros sistemas de primer orden completos. El demostrador de teoremas de ge- 
ometria de Herbert Gelernter (Gelernter, 1959) utilizaba los métodos de büsqueda heu- 
ristica combinados con los diagramas de poda de subobjetivos falsos y era capaz de 
demostrar algunos resultados bastante intrincados de la geometria Euclidiana. Sin em¬ 
bargo, desde entonces, no ha habido mucha interacciôn entre la demostraciôn de teore¬ 
mas y la IA. 

Los trabajos inciales se concentraban en la completitud. Siguiendo al trabajo ini¬ 
cial de Robinson, las réglas de demodulaciôn y paramodulaciôn para el razonamien¬ 
to con igualdades fueron introducidas por Wos et al., (1967) y Wos y Robinson 
(1968), respectivamente. Estas réglas también fueron desarrolladas independientemente 
en el contexto de los sistemas de reescritura de términos (Knuth y Bendix, 1970). La 
incorporaciôn del razonamiento con igualdad en el algoritmo de resoluciôn se debe 
a Gordon Plotkin (1972); también era una caracteristica del QLISP (Sacerdoti et al., 
1976). Jouannaud y Kirchner (1991) hacen un repaso a la unificaciôn ecuacional des¬ 
de la perspectiva de la reescritura de términos. Los algoritmos eficientes de la unifi¬ 
caciôn estândar fueron desarrollados por Martelli y Montanari (1976) y Paterson y 
Wegman (1978). 

Junto al razonamiento con igualdad, los demostradores de teoremas han incorpora- 
do una variedad de procedimientos de propôsito especifico. Nelson y Oppen (1979) pro- 
pusieron un esquema muy influyente para la integraciôn de dichos procedimientos en 
un sistema de razonamiento general, entre otros métodos tenemos la «resoluciôn de te- 
oria» de Shekel (1985) y las «relaciones especiales» de Manna y Waldinger (1986). 

Se han propuesto un buen numéro de estrategias para la resoluciôn, comenzando con 
la estrategia de preferencia unitaria (Wos et al., 1964). La estrategia del conjunto soporte 
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fue propuesta por Wos et al., (1965), para proporcionar cierto grado de orientaciôn al 
objetivo en la resolucion. La resolucion lineal apareciô por primera vez en Loveland 
(1970). Genesereth y Nilsson (1987, Capitulo 5) proporcionan un breve, aunque cuida- 
doso, anâlisis de una gran variedad de estrategias de control. 

Guard et al., (1969) describen el demostrador de teoremas Sam inicial, que ayudô 
a resolver un problema abierto acerca de la teorfa de reticulos. Wos y Winker (1983) 
dan un repaso a las contribuciones del demostrador de teoremas Aura a través de la 
resolucion de problemas abiertos en diversas areas de las matemâticas y la lôgica. 
McCune (1992) continüa en esta direcciôn, hablando de las realizaciones del sucesor 
del Aura, el Otter, en la resolucion de problemas abiertos. Weidenbach (2001) des- 
cribe el Spass, uno de los demostradores de teoremas actuales mas potentes. A Com- 
putational Logic (Boyer y Moore, 1979) es la referencia bâsica del demostrador de 
teoremas de Boyer-Moore. Stickel (1988) cubre la Prolog Technology Theorem Prover 
(PTTP), que combina las ventajas de la compilaciôn del Prolog con la completitud de 
la eliminaciôn de modelos (Loveland, 1968). SETHEO (Letz et al., 1992) es otro de¬ 
mostrador de teoremas ampliamente utilizado basado en este enfoque; puede realizar 
varios millones de inferencias por segundo en estaciones del modelo-2000. Leantap 
(Beckert y Posegga, 1995) es un demostrador de teoremas eficiente implementado tan 
solo en 25 lineas de Prolog. 

El trabajo inicial sobre sintesis automâtica de programas fue realizado por Simon 
(1963), Green (1969a) y Manna y Waldinger (1971). El sistema transformacional de Burs- 
tall y Darlington (1977) utilizaba el razonamiento ecuacional para la sintesis de programas 
recursivos. KIDS (Smith, 1990, 1996) es uno de los sistemas modernos mas potentes; 
opéra como un asistente experto. Manna y Waldinger (1992) dan una introducciôn de 
tutorial al estado del arte actual, con énfasis es su propio enfoque deductivo. Automa- 
ting Software Design (Lowry y McCartney, 1991) recopila un buen numéro de trabajos 
en el area. El uso de la lôgica en el diseno del hardware se trata en Kem y Greenstreet 
(1999); Clarke et al., (1999) cubre la comprobaciôn de modelos para la verificaciôn del 
hardware. 

Computahility and Logic (Boolos y Jeffrey, 1989) es una buena referencia sobre la 
completitud y la indecidibilidad. Muchos trabajos iniciales sobre lôgica matemâtica se 
encuentran en Front Frege to Gôdel: A Source Book in Mathematical Logic (van Heije- 
noort, 1967). La revista de partida en este campo de la lôgica matemâtica pura (opues- 
ta a la deducciôn automâtica) es The Journal of Symholic Logic. Entre los libros 
engranados en la deducciôn automâtica encontramos el clâsico Symholic Logic and Me- 
chanical Theorem Proving (Chang y Lee, 1973), asi como otros trabajos mâs recientes 
como el de Wos et al., (1992), Bibel (1993) y Kaufmann et al., (2000). La antologia Au¬ 
tomation of Reasoning (Siekmann y Wrightson, 1983) dispone de trabajos iniciales 
muy importantes sobre la deducciôn automâtica. Otras revisiones histôricas han sido es- 
critas por Loveland (1984) y Bundy (1999). La revista principal en este campo de la de- 
mostraciôn de teoremas es la Journal of Automated Reasoning-, la conferencia mâs 
importante es la Conférence on Automated Déduction (CADE), que es anual. La inves- 
tigaciôn en la demostraciôn de teoremas también estâ estrechamente relacionada con el 
uso de la lôgica en el anâlisis de programas y los lenguajes de programaciôn; y cuya con¬ 
ferencia mâs importante es la Logic in Computer Science. 
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EJERCICIOS 

9.1 Demuestre a partir de los principios bâsicos que la Especificacion Universal es so- 
lida y que la Especificacion Existencial généra una base de conocimiento inferencial- 
mente équivalente. 

9.2 De Gusta(Jerry, Helado ) parece razonable inferir 3x Gusta(x, Helado). Apunte una 
régla de inferencia general, Introducciôn del Existencial, que sancione esta inferencia. 
Establezca cuidadosamente las condiciones que deben satisfacer las variables y los tér- 
minos involucrados. 


9.3 Suponga que una base de conocimiento contiene tan solo una sentencia, 3x Tan- 
AItoComo(x, Everest). /Cuâl de los siguientes resultados son legitimos al aplicar la Es¬ 
pecificacion Existencial? 

a) TanAltoComo(Everest, Everest). 

b) TanAltoComo(Kilimanjaro, Everest). 

c) TanAltoComo(Kilimanjaro, Everest) a TanAltoComo(BenNevis , Everest) (des- 
pués de dos aplicaciones). 

9.4 Dé el unificador mas general, si existe, de cada una de las siguientes parejas de sen- 
tencias atomicas: 

a) P(A, B, B), P(x, y, z). 

b) Q(y,G(A,B)),Q(G(x,x),y). 

c) Mayor(Padre(y), y), Mayor(Padre(x), John). 

d) Conoce(Padre(y), y), Conoce(x, x). 

9.5 Teniendo en cuenta los reticulos de subsuncion de la Figura 9.2. 

a) Construya el reticulo de la sentencia Contrata(Madre(John), Pa dre (John)). 

b) Construya el reticulo de la sentencia Contrata(IBM, y) («Cada uno trabaja en 
IBM»). Recuerde incluir cada tipo de peticion que se unifica con la sentencia. 

c) Asuma que Almacenar indexa cada sentencia bajo cada nodo de su reticulo de 
subsuncion. Explique cômo Buscar trabajaria cuando alguna de estas senten- 
cias contiene variables; utilice como ejemplos las sentencias de (a) y la peticion 
Contrata(x, Padre(x)). 

9.6 Suponga que introducimos en una base de datos lôgica un segmento de los datos 
del censo de Estados Unidos listando la edad, la ciudad de residencia, la fecha de naci- 
miento, y la madré de cada persona, utilizando los numéros de la seguridad social como 
las constantes de identificador de cada persona. De este modo, la edad de George séria 
&ifld(443-65-1282, 56). /,Cuâi de los siguientes criterios de indexacion C1-C5 permite 
una solucion eficiente para cada una de las peticiones P1-P4 (asumiendo que se utiliza 
el encadenamiento hacia atrâs estândar)? 

• Cl: un indice para cada âtomo en cada posicion. 

• C2: un indice para cada primer argumento. 

• C3: un indice para cada predicado atômico. 

• C4: un indice para cada combinaciôn de predicado y su primer argumento. 
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• C5: un indice para cada combination de predicado y su segundo argumento y un 
indice para cada primer argumento (no estândar). 

• PI: Edad(443-44-432l, x) 

• P2: Residen(x, Houston) 

• P3: Madre(x, y) 

• P4: Edad(x, 34) a Residen(x, TinyTownUSA) 

9.7 Uno podria pensar que se puede evitar el conflicto entre variables en la unificacion 
durante el encadenamiento hacia atrâs estandarizando todas las sentencias de la base de 
conocimiento de una vez por todas. Demuestre que para algunas sentencias este enfo- 
que no puede aplicarse. (Pista: tenga en cuenta una sentencia, y una parte de ella que se 
unifique con otra.) 

9.8 Explique como escribir cualquier problema de SAT-3 de tamano arbitrario utili- 
zando una ünica clâusula positiva de primer orden y no mas de 30 hechos base. 

9.9 Escriba representaciones lôgicas para las siguientes sentencias, que sean adecua- 
das para utilizarse con el Modus Ponens Generalizado. 

a) Los caballos, las vacas y los cerdos son mamiferos. 

b ) El descendiente de un caballo es un caballo. 

c) Barba Azul es un caballo. 

d ) Barba Azul es padre de Charlie. 

e) Descendiente y padre son relaciones inversas. 

/) Cada mamifero tiene un padre. 

9.10 En este ejercicio utilizaremos las sentencias que escribio en el Ejercicio 9.9 para 
responder a una pregunta mediante el algoritmo de encadenamiento hacia atrâs. 

a) Dibuje el ârbol de demostraciôn generado mediante un algoritmo de encadena¬ 
miento hacia atrâs para la peticion 3c Caballo(c), donde las clâusulas se em- 
parejan en el orden dado. 

b) /Que nota en este dominio? 

c) /Cuântas soluciones para c realmente se siguen de sus sentencias? 

d) /Puede pensar en algün mecanismo para encontrarlas todas? ( Pista : Podria 
querer consultar Smith et al., (1986).) 

9.11 Un acertijo infantil muy popular dice «No tengo hermanos ni hermanas, pero el 
padre de ese hombre es el hijo de mi padre». Utilice las réglas del dominio de la fami- 
lia (Capitulo 8) para demostrar quién es ese hombre. Puede aplicar cualquiera de los mé- 
todos descritos en este capitulo. / Por qué piensa que este acertijo es dificil? 

9.12 Trace la ejecucion del algoritmo de encadenamiento hacia atrâs de la Figura 9.6 
cuando se aplica para resolver el problema del crimen. Muestre la secuencia de los va- 
lores que se toman en la variable objetivos, y ordénelos en un ârbol. 

9.13 El siguiente codigo de Prolog define un predicado p: 

P(X, [X|Y] ) . 

P (X, [Y I Z] : - P (X, Z) . 
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à) Muestre los ârboles de demostraciôn y las soluciones para las peticiones P (A, 
[1, 2, 3 ] ) y P(2, [1, A, 3] ). 

b) /Que operaciôn estândar sobre listas représenta P? 

9.14 En este ejercicio veremos la ordenacion mediante el Prolog. 

a) Escriba clâusulas en Prolog que definan el predicado ordenado (L) , que es ver- 
dadero si y solo si la lista L esta ordenada en orden ascendente. 

b) Escriba una definicion en Prolog del predicado perm(L, M) , que es verdade- 
ro si y solo si L es una permutaciôn de M. 

c) Defina ordena (L, M) (M es la version ordenada de L) utilizando perm y or¬ 
denado. 

d ) Ejecute ordena sobre listas mas y mas largas hasta que pierda la paciencia. 
/Cuâl es la complejidad temporal de su programa? 

e ) Escriba un algoritmo de ordenacion mas râpido, como la ordenacion por inser- 
ciôn o la ordenacion râpida, en Prolog. 

9.15 En este ejercicio veremos la aplicacion recursiva de las réglas de reescritura mediante 
la programaciôn logica. Una régla de reescritura (o demodulador en la terminologla del 
Otter) es una ecuaciôn con una direcciôn especificada. Por ejemplo, la régla de reescritu- 
ra x + 0 —» x sugiere reemplazar cualquier expresiôn que empareje con x + 0 por la ex¬ 
presiôn x. La aplicacion de las réglas de reescritura es una parte central de los sistemas de 
razonamiento ecuacionales. Utilizaremos el predicado rescribir (X; Y) para represen- 
tar las réglas de reescritura. Por ejemplo, la régla de reescritura anterior se escribe res¬ 
cribir (X + 0 , X) . Algunos términos son primitivos y por tanto no se pueden simplificar 
mas; por tanto, escribiremos primitivo ( 0 ) para decir que 0 es un término primitivo. 

a) Escriba una definicion de un predicado simplif icar (X, Y) , que es verda- 
dero cuando Y es una version simplificada de X, es decir, cuando no hay mas ré¬ 
glas de reescritura aplicables a cualquier subexpresiôn de Y. 

b) Escriba un conjunto de réglas para la simplificaciôn de expresiones que tengan 
operadores aritméticos, y aplique su algoritmo de simplificaciôn a algunas de 
las expresiones de muestra. 

c ) Escriba un conjunto de réglas de reescritura para la diferenciaciôn simbôlica, y 
utillcelas entre sus réglas de simplificaciôn para diferenciar y simplificar ex¬ 
presiones que tengan expresiones aritméticas, incluyendo la exponenciaciôn. 

9.16 En este ejercicio vamos a tener en cuenta la implementaciôn de los algoritmos de 
büsqueda en Prolog. Suponga que sucesor (X, Y) es verdadero cuando Y es el esta- 
do sucesor del estado X; y que objetivo (X) es verdadero cuando X es el estado obje- 
tivo. Escriba una definicion para resolver (X, C) , que significa que c es un camino 
(lista de estados) comenzando por X y acabando en el estado objetivo, y que consiste en 
una secuencia de pasos legales tal como se definen mediante el predicado sucesor. En- 
contrarâ que la büsqueda del primero en profundidad es la forma mas fâcil de hacerlo. 
/ Como de fâcil séria anadir una heurfstica para el control de la büsqueda? 

9.17 /Como se puede utilizar la resoluciôn para demostrar que una sentencia es vali¬ 
da?, /e insatisfacible? 
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9.18 De «Los caballos son animales», se sigue que «La cabeza de un caballo es la ca- 
beza de un animal». Demuestre que esta inferencia es valida llevando a cabo los siguientes 
pasos: 

a) Traduzca la premisa y la conclusion al lenguaje de la lôgica de primer orden. 
Utilice très predicados: CabezaDe(c, x ) (que significa que «c es la cabeza de x»), 
CabaIIo(x ) y Animal(x). 

b) Niegue la conclusion y transforme la premisa y la conclusion negada a la for¬ 
ma normal conjuntiva. 

c) Utilice la résolution para demostrar que la conclusion se sigue de la premisa. 

9.19 Aqui tenemos dos sentencias en el lenguaje de la lôgica de primer orden: 

(A) : Vx 3y (x 5* y) 

(B) : 3y Vx (x 5= y) 

a) Asuma que el rango de las variables esta sobre todos los nümeros naturales 0, 
1,2, ..., oo y que el predicado «S 5 » significa «es mayor o igual a». Bajo esta in¬ 
terprétation, transforme (A) y (B) al lenguaje natural. 

b) / ; Es (A) verdadero bajo esta interprétation? 

c) / ; Es (B) verdadero bajo esta interprétation? 

d ) ;JA) implica lôgicamente (B)? 

e ) /,(B) implica lôgicamente (A)? 

/) Utilizando la résolution, intente demostrar que (A) se sigue de (B). Hâgalo aun- 
que piense que (B) no implica lôgicamente (A); continüe hasta que la demos- 
traciôn se interrumpa y no pueda procéder (si se ha interrumpido). Muestre que 
unification y sustituciôn en cada paso de la résolution. Si la demostraciôn fa- 
11a, explique concretamente dônde, cômo y por qué ha fallado. 

g) Ahora intente demostrar que (B) se sigue de (A). 

9.20 La résolution puede generar demostraciones no constmctivas a partir de peticiones 
con variables, asi que teniamos que introducir mecanismos especiales para extraer las 
respuestas positivas. Explique por qué este problema no aparece en las bases de datos 
que solo contienen clâusulas positivas. 

9.21 En este capitulo hemos comentado que la résolution no se puede utilizar para ge¬ 
nerar todas las consecuencias lôgicas de un conjunto de sentencias. ^Algün algoritmo 
lo puede hacer? 



Représentation 
del conocimiento 


Donde se muestra cômo utilizar la lôgica de primer orden para représentai • 

los aspectos mâs importantes del mundo real como las acciones, el espacio, el tiempo, 

los eventos mentales y el hecho de ir de compras. 


En los ültimos très capftulos se han descrito las tecnologias en las que se sustentan los 
agentes basados en el conocimiento: la sintaxis, la semântica y las demostraciones teô- 
ricas de la lôgica proposicional y de primer orden, asi como la implementaciôn de los 
agentes que utilizan este tipo de lôgica. En este capitulo se abordarâ la cuestiôn de qué 
contenido incorporer a la base de conocimiento de los agentes (cômo representar hechos 
acerca del mundo). 

La Secciôn 10.1 introduce la idea general de ontologia, que organiza todo lo exis- 
tente en el mundo en una jerarquia de categorias. La Secciôn 10.3 aborda la represen- 
taciôn de las acciones, aspecto fundamental en la construcciôn de agentes basados en 
conocimiento. La Secciôn 10.2 cubre las categorias bâsicas de objetos y sustancias, y la 
Secciôn 10.3 explica el concepto mâs general de eventos, o segmentas espacio-tempo- 
rales. La Secciôn 10.4 habla sobre el conocimiento acerca de las creencias y la Secciôn 
10.5 proporciona todo el conocimiento de forma conjunta en el contexto de una tienda 
que vende a través de Internet. Los Apartados 10.6 y 10.7 cubren los sistemas de razo- 
namiento especializados para representar incerteza y conocimiento cambiante. 


10.1 Ingeniena ontologica 


En dominios de «juguete», el problema de la représentation no es importante y es fâcil 
encontrar un vocabulario consistente. Por otro lado, los dominios complejos como son 
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INGENIERIA 
□ NTOLÔGICA 


ONTOLOGIA 

SUPERIOR 


la compra utilizando Internet o el control de un robot en un entorno fisico cambiante, 
requieren representaciones mas generales y flexibles. Este capitulo muestra cômo crear 
estas representaciones, concentrândose en conceptos generales (como las acciones, el 
tiempo, los objetos fisicos y las creencias) que ocurren en dominios muy diferentes. La 
representaciôn de estos conceptos abstractos se suele denominar ingenieri'a ontolôgica 
(relacionada con el proceso de la ingeniena del conocimiento descrito en la Secciôn 
8.4, aunque opéra a gran escala). 

La posibilidad de representarlo todo en el mundo, es una tarea de énormes propor- 
ciones. Por supuesto, no se va a realizar una descripciôn compléta de todo (eso séria de- 
masiado hasta para un libre de 1.000 paginas), pero se dejarân moldes donde se pueda 
incorporer nuevo conocimiento, sea cual sea el dominio. Por ejemplo, se définira lo que 
significa un objeto fisico, y los detalles de diferentes tipos de objetos (robots, televiso- 
res o cualquier otra cosa), que pueda ser rellenado con posterioridad. El marco de tra- 
bajo general para los conceptos se llama ontologi'a superior, debido a la convenciôn 
general de representar en los grafos los conceptos generales en la parte superior y los 
conceptos mas especificos debajo de ellos, como en la Ligure 10.1. 

Antes de considerar la ontologia en mas profundidad, se plantearâ una adverten- 
cia importante. Se ha seleccionado el uso de la lôgica de primer orden para tratar el 
contenido y la organizaciôn del conocimiento. Ciertos aspectos del mundo real son di- 
fîciles de capturar en LPO (lôgica de primer orden). La principal dificultad es que casi 
todas las generalizaciones tienen excepciones, o son ciertas solo en un determinado 
grado. Por ejemplo, aunque «los tomates son rojos» es una régla ütil, algunos toma¬ 
tes son verdes, amarillos o naranjas. Se pueden encontrar excepciones similares para 
casi todas las afirmaciones hechas en este capitulo. La habilidad para manejar excep¬ 
ciones e incerteza es extremadamente importante, pero es ortogonal con la tarea de com- 
prender la ontologia general. Por esta razôn, se retrasarâ el tratamiento de excepciones 


Todo 


ObjetosAbstractos 


EventosGeneralizados 


Conjuntos Numéros OhjetosDeRepresentaciôn Intervalos Lugares ObjetosFisicos Procesos 


Categorias Sentencias Mediciones 


Momentos 



Tiempo Pesos Animales Agentes Sôlido Liquido Gas 


Humanos 


Figura 10.1 La ontologia superior del mundo, en donde se indican los temas que mas adelante 
se abordan en el capitulo. Cada arco indica que el concepto inferior es una especializacion del con- 
cepto superior. 
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hasta la Seccion 10.6, y los aspectos mas generales sobre informaciôn incierta hasta 
el Capitulo 13. 

^Qué se utiliza en una ontologia superior? Considérese de nuevo la ontologia para 
circuitos de la Seccion 8.4. Se realiza un gran nümero de asunciones para su simplifi- 
caciôn. Por ejemplo, el tiempo se omite por completo. Las senales son fijas y no se pro- 
pagan. La estructura de un circuito se mantiene constante. Si se quiere hacer mas general, 
se considerarân las senales a distintos intervalos de tiempo y se induira la longitud de 
los cables y los retrasos de propagaciôn. Esto permitiria simular las propiedades del tiem¬ 
po en el circuito, y de hecho esas simulaciones son a menudo llevadas a cabo por dise- 
nadores de circuitos. También se podrfan introducir clases de puertas mas interesantes, 
por ejemplo especificando la tecnologia (TTL, MOS, CMOS, etc.), asi como las espe- 
cificaciones de entrada/salida. Si se quisiera considerar la fiabilidad del diagnôstico, se 
introduciria la posibilidad de que la estructura del circuito o las propiedades de las puer¬ 
tas pudieran cambiar de forma espontânea. Para tener en cuenta las capacitaciones per- 
didas, se deberia ir desde una representaciôn puramente topolôgica hacia una descripciôn 
mas realista de las propiedades geométricas. 

Al centrarse en el mundo de los wumpus, se aplican consideraciones similares. Aun- 
que se incluye el tiempo, tiene una estructura muy simple: nada sucede excepto cuando 
el agente actüa y todos los cambios son instantâneos. Una ontologia mas general, que 
se adapte mejor para el mundo real, deberia permitir cambios simultâneos que se ex- 
tienden en el tiempo. Se utiliza el predicado Hoyo para especificar qué cuadrados tie- 
nen hoyos. Se podrian haber permitido diferentes clases de hoyos teniendo varios 
individuos que pertenecieran a dichas clases, cada uno de ellos con diferentes propie¬ 
dades. De igual modo, se podria querer permitir otros animales ademâs de wumpuses. 
No séria posible identificar las especies exactas a partir de las percepciones, por lo tan- 
to séria necesario construir una taxonomia biolôgica del mundo de los wumpus para ayu- 
dar al agente a predecir el comportamiento partiendo de pistas escasas. 

Para una ontologia de proposito especifico, es posible hacer cambios como estos para 
moverse hacia una mayor generalidad. Enfonces surge una pregunta obvia: /convcrgc- 
rân todas estas ontologias en una ontologia de proposito general? Después de siglos de 
investigaciôn füosôfica y computacional, la respuesta es «posiblemente». En esta sec¬ 
cion, se propondrâ una version, que représenta una sintesis de las ideas de todos estos 
siglos. Hay dos caracteristicas principales en las ontologias de proposito general que las 
distinguen de la colecciôn de ontologias de proposito especifico: 

• Una ontologia de proposito general debe ser aplicable en mayor o menor medida 
a cualquier dominio de proposito especifico (con la inclusion de axiomas especi- 
ficos del dominio). Esto significa que, en tanto como sea posible, no se deben re- 
finar aspectos de representaciôn ni ser ignorados. 

• En un dominio dispar, las diferentes areas de conocimiento deben ser unificadas, 
puesto que el razonamiento y la resoluciôn de problemas podria involucrar varias 
areas simultâneamente. Un sistema de reparaciôn de circuitos para robots, por ejem¬ 
plo, necesitar razonar acerca de los circuitos en términos de conectividad eléctri- 
ca y disposiciôn fisica, y sobre el tiempo para realizar el anâlisis de tiempos y 
estimar el costo de la obra. Las sentencias que describen el tiempo deben ser ca- 
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paces de poder ser combinadas con aquellas que describen disposiciôn espacial, 
y deben trabajar igualmente bien con nanosegunos y minutos o utilizando angs- 
troms y métros. 

Después de presentar la ontologia general, se utilizarâ para describir el dominio de 
compra por Internet. Este dominio es mas que adecuado para ejercitar la ontologia pro- 
puesta, y proporciona el alcance suficiente para que el lector realice alguna representa- 
ciôn creativa de conocimiento por su cuenta. Considérese por ejemplo, que el agente de 
compra por Internet debe conocer millares de titulos y autores para comprar libres en 
Amazon.com, todas las clases de comidas para comprar provisiones en Peapod.com y 
todo lo que cualquiera puede encontrarse en una estaciôn de servicio para buscar gan- 
gas en Ebay.com 1 . 


10.2 Categorîa y objetos 


CATEGORIES 



HERENCIA 


La organizaciôn de objetos en categorias es una parte vital de la representaciôn del co¬ 
nocimiento. Aunque la interacciôn con el mundo tiene lugar a nivel de objetos indivi- 
duales, la mayorîa del proceso de razonamiento tiene lugar en el nivel de categorias. 
Por ejemplo, un comprador puede tener el objetivo de comprar un balôn de baloncesto, 
en lugar de un balôn de baloncesto concreto como BB g . Las categorias también sirven 
para hacer predicciones sobre los objetos una vez que estân clasificados. Se puede in- 
ferir la presencia de ciertos objetos a través de la percepciôn, inferir la categoria a la que 
pertenece utilizando las propiedades del objeto percibidas y enfonces usar las informa¬ 
tion sobre categorias para realizar predicciones sobre los objetos. Por ejemplo, a partir 
de las caracteristicas verde, câscara moteada, tamano grande y con forma ovalada, uno 
puede inferir que un objeto es una sandia; a partir de esto, uno puede inferir que puede 
ser ütil para una ensalada de frutas. 

Existen dos opciones para representar categorias en lôgica de primer orden: predi- 
cados y objetos. Es decir, se puede usar el predicado Balôn de_baloncesto{b), o se pue¬ 
de reformular la categoria como un objeto, Balonesde baloncesto. Enfonces se puede 
decir Miembro(b, Balones de Baloncesto) (que se puede abreviar como b e Balo¬ 
nes de baloncesto) para decir que b es un miembro de la categoria de balones de ba¬ 
loncesto. Se utiliza Subconjunto(Balones de baloncesto, Balones ) (abreviado como 
Balones de baloncesto c: Balones) para indicar que los balones de baloncesto son una 
subcategoria, o subconjunto, de los Balones. Enfonces se puede pensar que una catego¬ 
ria es un conjunto que agrupa a sus miembros, o se puede pensar que es un objeto mas 
complejo que surge cuando tienen sentido las relaciones de Miembro y Subconjunto de- 
finidas para él. 

Las categorias sirven para organizar y simplificar el conocimiento base, a través de 
la herencia. Se dice que todos los objetos de la categoria Alimentos son comestibles, y 


1 Discülpese si debido a circunstancias fuera de nuestro control, algunas de las tiendas on-line no se encuen- 
tran funcionando en el momento que el lector lea estas llneas. 
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TAXONOMIA 


DISJUNTAS 

DESCOMPOSICIÔN 

EXHAUSTIVA 

PARTICIÔN 


se afirma que Fruta es una subclase de Alimentos y que Manzanas en una subclase de 
Fruta, enfonces se sabe que cualquier manzana es comestible. Se dice que las manza¬ 
nas individuales heredan la propiedad comestible, es este caso por su funcion de per- 
tenencia a la categorfa Alimentos. 

Las relaciones de subclasificacion organizan categorfas en taxonomîas, o relacio- 
nes taxonômicas. Las taxonomîas se han utilizado explicitamente desde hace siglos en 
campos técnicos. Por ejemplo, la biologia sistemâtica intenta proporcionar una taxonomia 
para todas las especies vivas y extinguidas; la bibliografïa de ciencias ha desarrollado 
una taxonomia de todos los campos del conocimiento, codificado como sistema Déci¬ 
mal de Dewey, mientras que los departamentos de impuestos y otros departamentos gu- 
bernamentales han desarrollado grandes taxonomîas sobre ocupaciones y productos 
comerciales. Las taxonomîas son también un aspecto importante en el conocimiento ge¬ 
neral del sentido comün. 

La logica de primer orden hace sencillo realizar afirmaciones sobre categorfas, ya 
sea relacionando objetos con categorfas o cuantificando sus miembros: 

• Un objeto es un miembro de una categorfa. Por ejemplo: 

BB 9 e Balonesde baloncesto 

• Una categorfa es subclase de otra categorfa. Por ejemplo: 

Balones de baloncesto c Balones 

• Todos los miembros de una categorfa tienen algunas propiedades. Por ejemplo: 

x e Balones_de baloncesto => Redondo(x) 

• Miembros de una categorfa se pueden reorganizar por algunas propiedades. Por 
ejemplo: 

NaranjaÇx) a Redondo{x) a Diâmetroix) = 9.5" a x e Balones =>xe 
e Balones de baloncesto 

• Una categorfa como conjunto tiene algunas propiedades. Por ejemplo: 

Perros e EspeciesDomesticadas 

Notese que debido a que Perros es una categorfa y es un miembro de EspeciesDomes¬ 
ticadas, esta ültima debe ser una categorfa de categorfas. Se podrîan tener incluso cate- 
gorias de categorfas de categorfas, pero no son de mucha utilidad. 

Aunque las relaciones de subclasificacion y miembro son las mas importantes para 
las categorfas, también se quiere ser capaz de modelar relaciones entre categorfas que 
no son subclase unas de otras. Por ejemplo, si se dice que Machos y Hembras son sub- 
clases de Animales, enfonces no se afirma que Machos no sean Hembras. Se dice que 
dos o mas categorfas son disjuntas, si no tienen miembros en comün. Incluso si se co¬ 
noce que machos y hembras son disjuntos, no se sabe que un animal que no es un ma¬ 
cho, debe ser una hembra, a menos que se explicite que machos y hembras constituyen 
una descomposiciôn exhaustiva de los animales. Una descomposiciôn exhaustiva dis- 
junta se conoce como una particiôn. Los siguientes ejemplos ilustran estos très conceptos: 

Disjunto({Animales, Végétales }) 

DescomposiciônExhaustiva{{Americanos, Canadienses, Mejicanos (, 

Norteamericanos) 

Particiôn({Machos, Hembras), Animales) 
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(Nôtese que la DescomposiciônExhaustiva de Norteamericanos no es una Partition, por- 
que alguna gente tiene doble nacionalidad.) Los très predicados se definen a continuacion: 

Disjunto(s) <=> (V c v c 2 qe s a c 2 e s a c 1 ¥= c 2 =$ Inter sectionne v c 2 ) = { }) 
DescomposiciônExhaustiva{s, c) <^> (V i i e c <=> 3 c 2 c 2 e s a i e c 2 ) 

Particiôn(s, c ) o Disjunto(s ) a DescomposiciônExhaustiva(s, c) 

Las categorias también se pueden définir proporcionando las condiciones necesarias y 
suficientes para la funciôn de pertenencia. Por ejemplo, soltero es un macho adulto no 
casado: 


x e Solteros <=> NoCasado{x) axe Adultos axe Machos 

Como se comenta en el recuadro correspondiente al género natural, no siempre es po- 
sible formular definiciones lôgicas rigurosas de las categorias, ni en todos los casos es 
necesario. 


Objetos compuestos 

La idea de que un objeto puede ser parte de otro es familiar. La nariz forma parte de la 
cabeza, Rumama es parte de Europa y este capitulo es parte de este libro. En general, 
se utiliza la relacion ParteDe para decir que algo forma parte de otra cosa. Los objetos 
se pueden agrupar dentro de jerarquias ParteDe, reminiscencia de la jerarquia Suh- 
conjunto : 

ParteDe(Bucarest, Rumama) 

ParteDe(Rumam'a, EuropaDelEste ) 

ParteDe(EuropaDelEste, Europa ) 

ParteDe(Europa, Tierra) 

La relacion ParteDe es transitiva y reflexiva: es decir, 

ParteDe{x, y) a ParteDeiy, z) => ParteDe(x, z) 

ParteDe(x, x) 

Por lo tanto, se puede concluir ParteDe(Bucarest, Tierra). 

Las categorias de objetos compuestos se caracterizan a menudo por relaciones es- 
tmcturales entre las partes. Por ejemplo, un bipedo tiene dos piernas unidas a su cuerpo: 

Bipedo{a) => 3 l v T, b Pierna{l x ) a Pierna{I 2 ) a Cuerpo(b) a 

ParteDe(l x , a) a ParteDe(I 2 , a) a ParteDeib, a) a 
UnidaA{l x , b) a UnidaAiT, b) a 
^ l 2 a [V / 3 Pierna(l 3 ) a ParteDe(l v a) => (/ 3 = /, v / 3 = / 2 )] 

La notaciôn de «exactamente dos» no es la mas adecuada. Esto fuerza a decir que hay 
dos piernas, que no son las mismas, y que si alguien propone una tercera piema, debe- 
râ ser la misma que una de las otras dos. En la Seccion 10.6, se verâ como un formalis- 
mo denominado descripcion logica hace mucho mas fâcil representar restricciones como 
«exactamente dos». 
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Se puede définir una ParticiônDePartes como anâloga a la relacion de Partition co- 
rrespondiente a las categorias ( véase Ejercicio 10.6). Los objetos estân constituidos por 
las partes de su ParticiônDePartes, y se puede considerar que algunas de sus propieda- 
des se derivan de taies partes. Por ejemplo, la masa de un objeto compuesto, es la suma 
de cada una de sus partes. Conviene advertir que no sucede lo mismo con las categorf- 
as, las cuales no tienen masa, aunque sus elementos si puedan tenerla. 

Es conveniente définir los objetos compuestos mediante partes bien definidas, aun¬ 
que sin una estructura determinada. Por ejemplo, se podria afirmar: «Las manzanas de 
esta boisa pesan kilo y medio». La tentaciôn séria adscribir este peso al conjunto de man¬ 
zanas en la boisa, pero esto es un error, porque el conjunto es un concepto matemâtico 
abstracto que tiene elementos pero no tiene peso. En su lugar, se précisa de un nuevo 
concepto, el cual se llamarâ montôn. Por ejemplo, si las manzanas son Manzana v Man- 
zana 2 y Manzana v enfonces 

MontônDei { Manzana ,, Manzana 2 , Manzana 3 }) 

dénota al objeto compuesto cuyas partes son las très manzanas (no elementos). Se pue¬ 
de utilizar el concepto de montôn como un objeto normal, aunque no estructurado. N6- 
tese que MontônDe{Manzanas) es un objeto compuesto formado por todas las manzanas 
(que no debe ser confundido con Manzanas, la categoria o conjunto de todas las man¬ 
zanas). 

Se puede définir MontônDe en términos de la relacion ParteDe. Obviamente, cada 
elemento de 5 es parte de MontônDe{s)\ 

V x ieï=> ParteDe(s, MontônDe(s)) 

Ademâs, MontônDe(s ) es el objeto mas pequeno que satisface esta condiciôn. En otras pa¬ 
labras, MontônDeis) debe ser parte de cualquier objeto que tiene todos los elementos de 
s como partes: 

V y [ V x x e s => ParteDeix , y)] => ParteDe(MontônDe{s), y) 

Estos axiomas son un ejemplo de una técnica general llamada minimizaciôn lôgica, que 
define a un objeto como el mas pequeno que satisface ciertas condiciones. 

Medidas 

Tanto en las teorias cientificas del mundo como en las que apelan al sentido comün, 
los objetos poseen peso, masa, costo, etc. Los valores que se asignan a estas propie - 
dades se conocen como medidas. Es muy fâcil representar medidas cuantitativas. Se 
puede pensar que en el universo existen «objetos de medida» abstractos taies como la 

longitud, que es la longitud de este segmento de lfnea: |-1. A la 

longitud anterior se puede llamar 1,5 pulgadas o 3,81 cenrimetros. Es decir, la misma 
longitud puede denominarse de diferentes formas en el lenguaje. Lôgicamente, esto 
se realiza combinando una funciôn de unidades con un numéro (un esquema alter¬ 
native se explora en el Ejercicio 10.8). Si se dénota al segmento de linea como L v se 
puede escribir 


Longitud(L\) = Pulgadas{ 1,5) = Centimetros(3,Sl ) 
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LOS GÉNEROS NATURALES 

Algunas categorias se definen de manera rigurosa: un objeto se considéra como triângulo si y solo si 
es un poligono de très lados. Por el contrario, la mayor parte de las categorias del mundo real que no 
tienen una definicion précisa se llaman de género natural. Por ejemplo, los tomates en general tienen 
un color escarlata tenue, son mas o menos esféricos y tienen una pequena depresion en la parte supe- 
rior, que es donde esta el tallo, tienen un diâmetro que puede ir desde 7.5 hasta 10 cm, tienen piel del- 
gada pero resistente y en el interior tienen pulpa, semillas y jugo. Aunque también hay variaciones: 
algunos tomates son de color naranja, los tomates que no estân todavia maduros son verdes, algunos 
son mas grandes y otros mas pequenos que el promedio, mientras que los tomates pequenos de ensa- 
lada son todos igual de pequenos. En vez de una definicion compléta de los tomates, se tiene un con- 
junto de caracteristicas que permiten identificar esos objetos, que evidentemente son tomates tipicos. 
Caracteristicas que no permitirân tomar decisiones en el caso de otros objetos. / Acaso puede haber to¬ 
mates con piel de melocoton? 

Lo anterior plantea un problema al agente logico. Este no puede estar seguro de que aquello que ha 
percibido sea un tomate, incluso estando seguro de ello, no tendria la certeza de qué propiedades de un 
tomate tipico tiene ese tomate en particular. El problema anterior es consecuencia inévitable de operar 
en entornos parcialmente observables. 

La idea clave consiste en separar lo que es vâlido para todos los casos concretos de una categoria, 
de aquello que solo se cumple en los casos tipicos de esa categoria. Por ejemplo, ademâs de la cate¬ 
goria Tomates, también se dispone de la categoria TIpicos(Tomates). En este caso, Tipico es una fun- 
cion que correlaciona una categoria con la subclase de tal categoria en la que se encuentran solo los 
casos tipicos: 

Tîpico(c ) Ç= c 

De hecho, gran parte del conocimiento sobre los géneros naturales se refiere a los casos tipicos: 

x e Tipico(Tomates) => Rojo(x ) a Redondo(x) 

De esta forma, se pueden poner por escrito hechos ütiles acerca de la categorias, sin tener que ofrecer 
definiciones exactas. 

Wittgenstein (1953), en su libro Philosophical Investigations, explicô lo dificil que es ofrecer de- 
finiciones exactas para la mayoria de las categorias naturales. Empleo el ejemplo de los juegos, para 
mostrar que los miembros de una categoria lo que tenian en comün eran «parecidos familiares», mas 
que caracteristicas necesarias y suficientes. 

Quine (1953), desafio también la utilidad de la nocion de definicion rigurosa. Comento que, incluso 
una definicion como la anterior de «soltero», déjà que desear. Por ejemplo, cuestiono afirmaciones como 
la de que «el Papa es soltero». Aunque esta afirmaciôn no es estrictamente falsa, su uso es desafortu- 
nado porque induce a inferencias no deseadas por parte del receptor. El conflicto podria ser resuelto 
distinguiendo entre definiciones lôgicas adecuadas para representaciôn de conocimiento interno, y aque- 
llos criterios mas matizados para su correcto uso lingüistico. Estos ültimos podrian ser alcanzados fil- 
trando las aserciones derivadas de las primeras. También puede ser posible que los fallos derivados del 
uso lingüistico sirvan como retroalimentaciôn para modificar definiciones internas, filtrando aquellas 
que no sean necesarias. 
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La conversion entre una unidad y la otra se realiza igualando mültiplos de una unidad 
respecta a la otra: 

Centîmetros{ 2,54 X d) = Pulgadas{d) 

Se pueden escribir axiomas similares para libras y kilogramos, segundos y dias, asi 
como dôlares y centavos. Las medidas se pueden usar para describir objetos, como por 
ejemplo: 

Diâmetro(Balôn_de_baloncesto l2 ) = Pulgadas( 9.5) 

Precio{Balôn_de baloncesto n ) = $(19) 
d e Dîas => Duraciôn(d) = Horas( 24) 

Es conveniente resaltar que $(1) no es un billete de un dôlar. Uno puede tener dos bi- 
lletes de dôlar, pero hay solo un objeto denominado $( 1). Resaltar también que mien- 
tras Pulgadas{ 0) y Centi'metros(O) se refieren al mismo valor cero de longitud, no son 
équivalentes a otras medidas de cero como Segundos{ 0). 

Es fâcil representar las medidas sencillas y cuantitativas. Existe otro tipo de medi¬ 
das que son mas dificiles, pues no se dispone de una escala de valores bien definida. Los 
ejercicios tienen dificultad, los postres tienen delicia, los poemas tienen belleza, sin 
embargo a ninguna de estas cualidades se le puede asignar un nümero. Se podria estar 
tentado, en un afân por tener en cuenta solo aquello que es contable, a descartar las pro- 
piedades anteriores al considerarlas inütiles para el razonamiento lôgico, o lo que es peor, 
imponer una escala numérica a la belleza. Lo anterior séria un grave error, puesto que 
no es necesario. El aspecto mas importante de las medidas no résidé en los valores nu- 
méricos particulares en si, sino en el hecho de que las medidas permiten una ordenaciôn. 

Aun cuando las médias no estén representadas por nümeros, es posible compararlas 
entre si mediante signos de ordenaciôn como >. Por ejemplo, hay quienes consideran 
que los ejercicios de Norvig son mas dificiles que los propuestos por Russell, y es mas 
dificil obtener una buena calificaciôn en éstos: 

<?, e Ejercicios a e 2 e Ejercicios a Escribiô(Norvig, <?,) a Escribiô(Russell, e 2 ) => 
Dificultad{e j) > Dificultad(e 2 ) 

e l e Ejercicios a e 2 e Ejercicios a Dificultadie j > Dificultad(e 2 ) => 
CalificaciônEsperada(e j) < CalificaciônEsperada(e 2 ) 

Lo anterior bastarâ para decidir qué ejercicios realizar, aunque no existan valores nu- 
méricos para tomar tal decision (lo que si séria necesario es saber quién escribiô cada 
ejercicio). Este tipo de relaciones monotônicas que guardan entre si las medidas, cons- 
tituye la base del campo conocido como fisica cualitativa, un subcampo de la IA que 
investiga como razonar acerca de los sistemas fisicos, sin tener que enfrascarse en la ela- 
boraciôn de minuciosas ecuaciones y simulaciones numéricas. En la secciôn de notas 
histôricas se habla sobre la fisica cualitativa. 


Sustancias y objetos 

Quizâs al mundo real se le podria considerar constituido por objetos primitivos (parti- 
culas) y por objetos compuestos constmidos con estas particulas. Al razonar en el nivel 
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de objetos grandes como manzanas y coches, se élimina la complejidad de tratar por se- 
parado con una inmensa cantidad de objetos primitivos. Existe sin embargo, una im¬ 
portante porcion de realidad que pareceria desafiar todo tipo de individualizaciôn: 
separacion en objetos distintos. A esta porcion se le conoce genéricamente como ma- 
teria o sustancia. Por ejemplo, supongase que ante mi tengo un oso hormiguero y man- 
tequillas. Si bien se puede afirmar que hay un oso hormiguero, no es obvio como se puede 
cuantificar la mantequilla, no es évidente qué cantidad de «objetos-mantequilla» hay, 
puesto que cualquier parte de un objeto-mantequilla, es también otro objeto-mantequi- 
11a, por lo menos hasta llegar a partes realmente diminutas. Lo anterior constituye la di- 
ferencia fondamental entre una sustancia y las cosas. Si se parte por la mitad al oso 
hormiguero, no resultan dos osos hormigueros, desafortunadamente. 

Nôtese que en espanol, como en otros idiomas, se distingue claramente entre sus- 
tancias y cosas. Se dice, por ejemplo, «un oso hormiguero», en cambio (excepta en al- 
gunos presuntuosos restaurantes californianos) nunca se pediria «una mantequilla». Los 
lingüistas establecen una diferencia entre sustantivos contables como osos hormigue¬ 
ros, orificios y teoremas y sustantivos no contables como mantequilla, agua y energia. 
Varias ontologias competentes reclaman el manejo de esta distincion. Aqui se describi- 
râ solo una, las restantes se tratan en la secciôn de notas histéricas. 

Para representar correctamente a las sustancias, se tiene que empezar por lo que es 
obvio. En la ontologia presentada, se tendrân que incluir por lo menos el gmeso del «pa- 
quete» de aquellas sustancias con las que se interactüa. Por ejemplo, se podrfa considé¬ 
rer que la mantequilla es la misma que la que se dejo sobre la mesa la noche anterior, se 
puede coger, pesarla, venderla o cualquier otra cosa. En este sentido, la mantequilla es 
un objeto igual que el oso hormiguero. Llâmese Mantequilla y Se définira también la ca- 
tegorfa Mantequilla. De manera no formai, sus elementos serân todas aquellas cosas de 
las que se puede a fir mar «Es mantequilla», incluida Mantequilla y Aclarando que por aho- 
ra se omitirân algunas partes muy pequenas, toda parte de un objeto-mantequilla es tam¬ 
bién un objeto-mantequilla: 

x e Mantequilla a ParteDe(y, x) =>y e Mantequilla 

Se puede decir ahora, que la mantequilla se derrite aproximadamente a los 30 °C: 

x e Mantequilla => PuntoDeFusiôn(x, Centîgrados(30 )) 

La mantequilla es amarilla, menos densa que el agua, se reblandece a temperatura am- 
biente, tiene alto contenido de grasas, etc. Por otra parte, la mantequilla no tiene tama- 
no, peso, ni forma especificos. Lo que si se puede es définir categorias mas especializadas 
para la mantequilla, por ejemplo MantequillaSinSal, que también es un tipo de sustan¬ 
cia, puesto que una parte de un objeto-mantequilla-sin-sal es también un objeto-mante- 
quilla-sin-sal. Por otra parte, si se define una categoria KiloDeMantequilla, cuyos 
miembros sean todos los objetos-mantequilla que pesen un kilo, ;ya se tiene una sus¬ 
tancia! Si se parte un kilo de mantequilla por la mitad, muy a pesar nuestro, el resulta- 
do no serân dos kilos de mantequilla. 

Lo que realmente ha sucedido es lo siguiente: hay propiedades que son intrinse- 
cas, pertenecen a la misma sustancia del objeto mas que el objeto como un todo. Cuan- 
do se divide algo en dos, ambas partes conservan el mismo conjunto de propiedades 
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intrinsecas (cosas como la densidad, el punto de ebulliciôn, el sabor, el color, la pro- 
extrinsecas piedad, etc.). Por otra parte, las propiedades extrinsecas son lo contrario: propiedades 

taies como peso, longitud, forma, funcion, etc., que después de dividir algo no se con- 
servan. 

Aquella clase de objetos que en su definicion incorpore solo propiedades intrinse¬ 
cas es una sustancia, o un sustantivo no contable, mientras que una clase que incorpore 
cualquier propiedad extrinseca en su definicion es un sustantivo contable. La categoria 
Sustancia es la categoria mas general de las sustancias, en la que no se especifica nin- 
guna propiedad intrinseca. La categoria Objeto, es la categoria de objetos discretos mas 
general, en la que no se especifica ninguna propiedad extrinseca. 


10.3 Acciones, situaciones y eventos 


El razonamiento sobre los resultados de las acciones es fondamental para el funcionamiento 
de un agente basado en conocimiento. El Capitulo 7 proporciona ejemplos de sentencias 
proposicionales que describen como las acciones afectan al mundo de wumpus (por 
ejemplo, laEcuaciôn (7.3) en el Apartado 7.7, describe como la posicion del agente cam¬ 
bia debido a un movimiento delantero). Una desventaja de la lôgica proposicional, es la 
necesidad de tener diferentes copias de la descripciôn de la accion para cada intervalo de 
tiempo en la cual la accion se podria llevar a cabo. Esta seccion describe un método de 
representaciôn que utiliza logica de primer orden para resolver este problema. 

La ontologia del câlculo de situaciones 

Una forma obvia de resolver la necesidad de disponer de mültiples copias de los axio- 
mas es simplemente cuantificar en el tiempo (V t, tal que es el resultado en t + 1 de 
realizar la accion en t). En vez de tratar con intervalos de tiempo explicitos como t + 1, 
esta seccion utiliza situaciones, que denotan los estados résultantes de ejecutar accio¬ 
nes. Esta aproximaciôn se denomina câlculo de situaciones y utiliza las siguientes on- 
tologias: 

• Como en el Capitulo 8, las acciones son términos lôgicos como HaciaDelante y 
Girar{derecha). Por ahora, se asumirâ que el entorno contiene solo un agente (si 
existe mas de uno, se debe insertar un argumenta adicional para decir qué agente 
esta realizando las acciones). 

• Las situaciones son términos lôgicos que consisten en una situaciôn inicial (nor- 
malmente denominada S 0 ), y todas las situaciones que son generadas mediante la 
aplicaciôn de una accion a una situaciôn. La funcion ResuItado(a, s) (en ocasio- 
nes denominada Do), da nombre a la situaciôn résultante de ejecutar una accion a 
en una situaciôn 5. La Figura 10.2 ilustra esta idea. 

flujos . Los flujos son funciones y predicados que varian de una situaciôn a la siguiente, 

como la posicion de un agente o la vitalidad de wumpus. El diccionario dice que 
flujo représenta algo que fluye, como un liquido. Utilizando este concepto, se quie- 


CÂLCULO 
DE SITUACIONES 
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re significar el flujo o cambio a través de las situaciones. Por convenciôn, la si¬ 
tuaciôn es siempre el ültimo argumente» de un flujo. Por ejemplo, ~'Sostener(G l , 
S 0 ) indica que el agente no esta sosteniendo el lingote de oro G, en la situaciôn ini- 
cial S 0 . Edad{Wumpus, S 0 ) se refiere a la edad de wumpus en S 0 . 

• Las funciones o predicados atemporales o eternos también se permiten. Ejem- 
plos son el predicado Lingote_de_oro(G j) y la funciôn PiernaIzquierdaDe(Wum- 
pus). 

Como complemento a las acciones simples, también es ütil razonar sobre las secuencias 
de acciones. Se pueden définir los resultados de las secuencias en términos de los re- 
sultados de acciones individuales. Primero, se establecerâ que ejecutar una secuencia va¬ 
ria, déjà la situaciôn inalterada 

Resultado([ ], s) = s 

Ejecutar una secuencia no varia es lo mismo que ejecutar la primera acciôn, y enfonces 
ejecutar el resto sobre la situaciôn résultante: 

Resultado([ a] seq], s ) = Resultado(seq, Resultado(a, s)) 

Un agente de câlculo de situaciones deberia ser capaz de deducir el resultado de una se¬ 
cuencia dada de acciones. Esta es la tarea de la proyecciôn. Con un algoritmo adecua- 
do de inferencia constructiva, deberia ser capaz de encontrar una secuencia que logre el 
efecto deseado. Esto es lo que se denomina tarea de planificaciôn. 

Se utilizarâ un ejemplo de una version modificada del mundo de wumpus, en la que 
no se tiene en cuenta la orientaciôn del agente y a dônde puede Ir, dada una localiza- 
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ciôn y su localizaciôn adyacente. Supôngase que el agente esta en [1, 1] y que el lingo- 
te de oro esta en [1, 2], El objetivo es tener el lingote de oro en [1, 1], Los predicados 
de flujo son En(o, x, 5 ) y Sosteniendo{o, 5 ). Entonces la base de conocimiento inicial po- 
dria incluir la siguiente descripcion: 

En(Agente, [1, 1], S 0 ) aE,i(G1, [1, 2], S 0 ) 

De todas formas esto no es suficiente, porque no especifica qué no es cierto en S 0 (para 
una discusiôn mas en profundidad sobre este punto, véase el Apartado 10.7). La des¬ 
cripcion compléta séria como sigue: 

En{o, x, S 0 ) O [(o = Agente ax = [1, 1]) v (o = G l ax = [1, 2])] 
~^Sosteniendo{o , ,S 0 ) 

También se necesita decir que G { es un lingote de oro y que [1, 1] y [1, 2] son adya- 
centes: 

Lingote _de_oro(Gj) a Adyacente(\ 1, 1], [1, 2]) a Adyacentei] 1,2], [1, 1]) 

Uno desearia ser capaz de probar que el agente consigue su objetivo desplazândose a [1, 
2], cogiendo el lingote de oro y volviendo a [1, 1], Es decir: 

En(G v [1, 1], ResuItado([Ir([ 1, 1], [1, 2]), TomatjG,), Ir([ 1, 2], [1, 1])], S 0 )) 

Una posibilidad mas interesante es la de constmir un plan para tomar el lingote de oro 
respondiendo a la pregunta «/ ; qué secuencia de acciones tienen como resultado que el 
lingote de oro esté al final en la posiciôn [1, 1]?». 

3 seqEn(G v [1, 1], Resultado(seq, S 0 )) 

Se verâ qué debe existir en la base de conocimiento para que preguntas como ésta se pue- 
dan responder. 


Descripcion de acciones en el câlculo de situaciones 


AXIOMA 

DE POSIBILIDAD 

AXIOMA DE EFECTO 


En la version mas simple del câlculo de situaciones, cada acciôn se describe por dos axio- 
mas: un axioma de posibilidad que especifica cuândo es posible ejecutar una acciôn, 
y un axioma de efecto que détermina qué sucede cuando se ejecuta una acciôn posible. 
Se utilizarâ Posible(a, s) para expresar que es posible la ejecuciôn de la acciôn a en la 
situaciôn 5 . Los axiomas tienen la siguiente forma: 


Axioma de Posibilidad: Precondiciones => Posible(a, 5). 

Axioma de Efecto: Posible{a, s) => Cambios que son el resultado de ejecutar 
una acciôn. 


Se presentan estos axiomas para el mundo modificado de wumpus. Para hacer mas cor- 
tas las sentencias, se omitirân los cuantificadores universales cuyo âmbito sea la sentencia 
entera. Se asumirâ que la variable 5 représenta situaciones, a représenta acciones, o re¬ 
présenta objetos (incluyendo agentes), g représenta lingotes de oro y x e y representan 
localizaciones. 
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Los axiomas de posibilidad para este mundo establecen que un agente puede mo- 
verse entre localizaciones adyacentes, tomar un lingote de oro en la posicion actual y 
soltar un lingote de oro que esta sosteniendo: 

En(Agente,x, s) a Adyacente(x, y) => Posible(Ir(x,y), s) 

Lingote_de_oro(g) a EnÇAgente , x, s) a En(g, x, s) => Posible(Tomar(g), s) 
Sosteniendo(g, s) => Posible(Soltar(g), s) 

Los axiomas de efecto establecen que, si una acciôn es posible, enfonces ciertas pro- 
piedades (flujos) tendrân lugar en la situacion résultante de ejecutar la acciôn. Ir desde 
x a y supone estar en y, tomar el lingote de oro conlleva sostenerlo y soltar el lingote de 
oro supone no sostenerlo: 

Posible{Ir{x, y), s) => En(Agente, y, Resultado(Ir(x, y), 5 )) 
PosibIe(Tomar(g), s) => Sosteniendo(g, Resultado{Tomar(g), s )) 
Posible(Soltar(g), s) => ~'Sosteniendo{g, Resultado(Soltar(g), s)) 

Al haber propuesto estos axiomas, ; sc puede probar que este pequeno plan alcanzarâ el 
objetivo?, jdesafortunadamente no! Al principio todo funciona corrcctamcntc: //•([ 1, 1], 
[ 1, 2]) es ciertamente posible en S 0 y el axioma de efecto para Ir permite concluir que 
el agente alcanza [1,2]: 

En(Agente, [1, 2], Resultado(Ir([ 1, 1], [1, 2]), S 0 )) 

Ahora se considerarâ la acciôn Tomar{G ,). Se debe mostrar que en la nueva situacion es 
posible, es decir, 

En(G v [1,2], Resultado(Ir([l 1], [1,2]), S 0 )) 

Pero desgraciadamente nada en la base de conocimiento justifica esta conclusion. In- 
tuitivamente, se entiende que la acciôn del agente Ir no deberia de tener efecto en la co- 
locaciôn del lingote de oro, por lo tanto, éste deberia estar en la posicion [1, 2], donde 
estaba en la situacion S 0 . El problema es que el axioma de efecto dice lo que cambia, 
pero no lo que permanece igual. 

Representar todas las cosas que permanecen inaltérables es lo que se conoce con el 
nombre del problema del marco 2 . Se debe encontrar una soluciôn eficiente al proble¬ 
ma del marco porque en el mundo real, casi todo permanece inaltérable todo el tiempo. 
Cada acciôn afecta solo a una pequena fracciôn de todo lo que fluye. 

Una aproximaciôn es escribir axiomas marco explicitos, que lo que hagan sea es- 
pecificar qué permanece inaltérable. Por ejemplo, los movimientos del agente dejan otros 
objetos en la misma posicion a menos que sean tomados: 

En(o, x, 5 ) a (o A Agente) a ~ i Sosteniendo(o , 5 ) => En(o, x, Resultado(Ir(y, z), s)) 

Si hay F predicados de flujo y A acciones, enfonces se necesitarân 0(AF) axiomas mar¬ 
co. Por otro lado, si cada acciôn tiene como mucho E efectos, donde normalmente E es 
mucho menor que F, entonces se podria representar lo que sucede con una base de co- 


2 El nombre de «problema del marco» procédé del concepto fïsico de «marco de referencia» (el fondo que se 
asume frjo respecta al cual se mide la acciôn). Tanrbién tiene relaciôn con el fondo de una pelrcula, en el cual 
se producen pocos cambios de una imagen a otra. 
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nocimiento mucho menor de tamano 0(AE). Este es el problema de la representaciôn 
del marco. El problema cercano relacionado es el problema de la inferencia del mar¬ 
co, consistente en proyectar los resultados de una secuencia de acciones de t fases en el 
instante de tiempo 0(Et ), en lugar de en el instante O (Fi) o O(AEt). Se abordarâ cada 
problema por separado. 

Resolver el problema de la representaciôn del marco 

La soluciôn al problema de la representaciôn del marco implica un ligero cambio en el 
punto de vista utilizado para escribir los axiomas. En lugar de especificar los efectos de 
cada acciôn, se considerarâ la forma en que cada predicado de flujo evoluciona en el tiem¬ 
po 3 . Se denominarâ a los axiomas a utilizar axiomas estado-sucesor. Estos axiomas tie- 
nen la siguiente forma: 

Axioma Estado-Sucesor: 

Acciôn es Posible => 

(Flujo es cierto en el estado résultante <=> Los efectos de las acciones se produjeron 

v Eran ciertos antes y la acciôn los dejô igual) 

Después de la salvedad de que no se consideran acciones imposibles, nôtese que la 
definiciôn utiliza o, no =>. Esto significa que el axioma especifica que el flujo sera cierto 
si y solo si la parte derecha es cierta. Dicho de otra forma, se especifica que el valor de 
verdad de cada flujo en el siguiente estado es una funciôn de la acciôn y del valor 
de verdad en el estado actual. Esto significa que el siguiente estado viene especificado 
de forma compléta por el estado actual, y por lo tanto, no se necesitan axiomas marco 
adicionales. 

El axioma estado-sucesor para la localizaciôn del agente dice que el agente esta en 
y después de ejecutar una acciôn, bien porque la acciôn es posible y consiste en el mo- 
vimiento a y, o bien porque el agente se encontraba en y y la acciôn no es un movimiento 
a ningün lado: 

Posiblefa , s) => 

( En(Agente, y, Resultado(a, s)) <=> a = Ir(x, y) 

v ( En(Agente, y, s) a a A Ir(y, z))) 

El axioma para Sosteniendo dice que el agente esta sosteniendo g después de ejecutar una 
acciôn, siempre que la acciôn fuera tomar aplicado a g suponiendo que la acciôn tomar 
es posible, o bien si el agente ya estaba sosteniendo g y la acciôn no supone soltarlo: 

Posible(a, s) => 

(Sosteniendo(g, Resultado(a, 5 )) <=> a = Tomar (g) 

v ( Sosteniendo(g, s) a a A Soltar(g))) 


3 Esta es esencialmente la aproximacion que utilizamos en la construccion del agente basado en circuito bo- 
oleano del Capitulo 7. De hecho, los axiomas corno las Ecuaciones (7.4) y (7.5) pueden ser vistos como axio¬ 
mas estado-sucesor. 
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Los axiomas estado-sucesor solucionan elproblema de la representaciôn del marco, por- 
que el tamano total de axiomas es 0(AE) literales: cada uno de los E efectos de cada ac¬ 
tion A, se menciona exactamente una vez. Los literales se aplican sobre los F diferentes 
axiomas, por lo que los axiomas tienen un tamano medio de AE/F. 

El lector inteligente habrâ notado que los axiomas manejan el flujo En para el agen¬ 
te, pero no para el lingote de oro. Por lo tanto, no se puede demostrar todavfa que el plan 
de très fases consiga el objetivo de tener el lingote de oro en [1, 1]. Se necesita exponer 
que un efecto implicite de que un agente se mueva desde una position x a una posicion 
y, es que cualquier lingote de oro que porte, se moverâ también (asi como cualquier hor- 
miga que estuviera en el lingote, cualquier bacteria en la hormiga, etc.). El tratar con efec¬ 
tos implfcitos se conoce como el problema de la ramification. Se discutirâ el problema 
en general posteriormente, pero para este dominio espetifico se puede resolver escri- 
biendo un axioma estado-sucesor mas general para En. El nuevo axioma que engloba la 
version anterior establece que un objeto o esta en la posicion y si el agente fue a y y o 
es el agente o algo que el agente estaba sosteniendo, o si o se encontraba ya en la posi¬ 
tion y y el agente no fue a ningün otro sitio, siendo o el agente o algo que el agente es¬ 
taba sosteniendo. 

Posible(a, s) => 

( En(o, y, Resultado(a, s)) <=> (a= Ir(x, y) a (o = Agente v Sosteniendo(o, 5 ))) 

v (En(o, y, s) a '"'(B z y A z a a = Ir(y, z) a 
(o = Agente v Sosteniendo(o, s)))). 

Existe un tecnicismo mas: un proceso de inferencia que use estos axiomas debe ser ca- 
paz de evaluar desigualdades. El tipo de desigualdad mas sencilla es entre constantes (por 
ejemplo, Agente # G[). La semântica general de la logica de primer orden permite dis¬ 
tingué constantes para referirse al mismo objeto, por lo tanto, la base de conocimiento 
debe incluir un axioma para prévenir esto. Los axiomas de nombre unico establecen 
una desigualdad para cada par de constantes en la base de conocimiento. Cuando esto 
se asume por el demostrador de teoremas en vez de ser especificado en la base de conoci¬ 
miento, se denomina asunciôn de nombres unicos. También se necesitan especificar 
desigualdades entre los términos de las acciones: 7r([l, 1], [1, 2]) es una action diferente 
a // ([ 1,2], [1, 1]) o Tomar(G x ). Primera, se establece que cada tipo de action es distin¬ 
ta (que la action Ir no es una action Tomar ). Para cada par de nombres de action A y B, 
se tendra que 


A(x v ..,x m ) ^B(y 1 ...,y„) 

A continuation, se establece que dos términos de action con el mismo nombre de ac¬ 
tion se refieren a la misma action, solo si las acciones afectan a los mismos objetos: 

A(x v .., xJ = A(y v .., y„) <=> x 1 = y l a ... a x m = y m 

Todo esto se denomina conjuntamente axiomas de action unica. La combination de la 
description del estado initial, axiomas estado-sucesor, nombres de axioma ünicos y axio¬ 
mas de acciôn ünica, es suficiente para demostrar que el plan propuesto consigue el ob¬ 
jetivo. 
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Resolver el problema de la inferencia del marco 

Los axiomas estado-sucesor resuelven el problema de la representacion del marco, pero 
no el problema de la inferencia del marco. Considérese un plan p de t fases en el que 
S t = Resultado{p, S 0 ). Para decidir qué flujos son ciertos en S t , se necesita considerar 
cada uno de los axiomas marco F en cada uno de las fases de tiempo t. Debido a que 
los axiomas tienen un tamano medio de AE/F, esto supone un trabajo de inferencia de 
0{AEt). La mayor parte del trabajo corresponde a copiar flujos que no cambian de una 
situaciôn a la siguiente. 

Para resolver el problema de la inferencia del marco, existen dos posibilidades. Pri- 
meramente, se podria descartar el câlculo de las situaciones e inventar un nuevo forma- 
lismo para escribir axiomas. Esto ha sido llevado a cabo por formalismos como el 
câlculo de flujos. En segundo lugar, se podria alterar el mecanismo de inferencia para 
manejar axiomas marco de forma mas eficiente. Un detalle que deberia ser posible es 
que la aproximacion mas simple fuera 0(AEt). / ; Por qué deberia depender del nümero 
de acciones, A, cuando se conoce que se ejecuta exactamente una accion en cada ins¬ 
tante de tiempo? Para ver como se pueden mejorar las cosas, primero se presentarâ el 
formato de los axiomas marco: 

PosibIe(a, s ) => 

F^Resuhadoia, s)) <=> (a = v a = A 2 ...) 

v F t (s) a {a F A 3 ) a {a F A 4 ) a ... 

Es decir, cada axioma menciona varias acciones que pueden hacer el flujo cierto y varias 
acciones que pueden hacerlo falso. Esto se puede formalizar introduciendo el predicado 
EfectoPos{a, F ), que significa que una accion a hace que F sea cierto, y EfectoNeg(a, F ) 
que significa que a hace que F, sea falso. Enfonces se puede rescribir el esquema de ac¬ 
ciones anterior como: 

Posible(a, s) => 

F i {Resultado{a, s)) <=> EfectoPos(a, F,) v [F, (.y) a EfectoNegia, F,)] 

EfectoPos(A ,, F) 

EfectoPos(A 2 , F,.) 

EfectoNeg(A 3 , F t ) 

EfectoNeg(A 4 , F,) 

Que esto se pueda hacer automâticamente, dépende del formato exacto de los axiomas 
marco. Para llevar a cabo un procedimiento de inferencia eficiente usando axiomas 
como éste, se necesita realizar lo siguiente: 

1. Indexar los predicados EfectoPos y EfectoNeg por su primer argumento, de for¬ 
ma que cuando se tenga una accion que ocurre en el instante de tiempo t, se pue¬ 
da encontrar su efecto en un tiempo de 0(1). 

2. Indexar los axiomas de tal forma que cuando se conozca que F, es un efecto de 
una accion, se pueda encontrar el axioma para F t en un tiempo de 0(1). Por lo 
tanto, no es necesario considerar los axiomas para flujos que no son un efecto 
de una accion. 
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3. Representar cada situation como una situation previa mas un incrementeo. De 
este modo, si no cambia nada desde un paso al siguiente, no se necesita realizar 
trabajo alguno. En la aproximacion antigua, se necesitaria hacer un trabajo de O(F) 
para generar una sentencia para cada flujo F-(Resultado(a, 5 )) de la sentencia Ffs) 
precedente. 

Por lo tanto, en cada instante de tiempo, es necesario centrarse en la action actual, bus- 
cando sus efectos y actualizando el conjunto de flujos ciertos. Cada instante de tiempo 
tendra una media E de estas actualizaciones, con una complejidad total de 0(Et). Esto 
constituye una solution al problema de la inferencia del marco. 

El tiempo y el câlculo de eventos 

El câlculo de situaciones funciona bien cuando existe un agente simple realizando ac- 
ciones discretas e instantâneas. Cuando las acciones tienen una duration y se pueden so- 
lapar unas con otras, el câlculo de situaciones se convierte en engorroso. Por lo tanto, 
câlculo de eventos estos temas se tratarân con un formalismo altemativo conocido como el câlculo de even¬ 
tos, basado en puntos en el tiempo en vez de en situaciones. Los términos «evento» y 
«action» se pueden intercambiar. Informalmente, un «evento» se corresponde con un con¬ 
junto amplio de acciones, incluyendo aquellas sin un agente explicita. Son mâs senci- 
llas de manejar en el câlculo de eventos que en el câlculo de situaciones. 

En el câlculo de eventos, los flujos tienen lugar en puntos en el tiempo en vez de en 
situaciones. El axioma de câlculo de eventos dice que un flujo es cierto en un punto con- 
creto en el tiempo, si el flujo fue iniciado por un evento en un instante de tiempo ante- 
rior y no fue finalizado por la intervention de algün otro evento. Las relaciones Inicio 
y Terminaciôn representan un papel similar al de la relation Resultado en el câlculo de 
situaciones. Inicio(e,f, t ) significa que la ocurrencia del evento e en el tiempo t causa 
que el flujo/sea cierto, mientras que Terminaciôn(w,f t ) significa que/deja de ser cier¬ 
to. Se utilizarâ Sucede(e, t ) para reflejar que el evento e sucede en el tiempo t, y se uti- 
lizarâ Interrumpidoif, t, t 2 ) para expresar que /ha finalizado por algün evento en algün 
instante entre t y t 2 . Formalmente, el axioma es: 

Axioma de Câlculo de Eventos: 

T(f t 2 ) <=> 3 e, t Sucede{e, t) a Inicio(e,f t) a (t < t 2 ) a -'Interrumpidoif, t, t 2 ) 

Interrumpidoif, t, t 2 ) <=> 3 e, f, Sucedeie, /) a Tenninaciônie, f, /) 

A (f < /) A (/ < t 2 ) 

Esto proporciona una funcionalidad similar al câlculo de situaciones, pero con la habi- 
lidad de poder hablar de puntos en el tiempo e intervalos; por lo tanto, se puede afirmar 
SucedeiApagariConmutadoi\), 1:00) para decir que una llave de luz serâ apagada exac- 
tamente a la 1:00 h. 

Se han hecho varias extensiones al câlculo de eventos (algunas con mâs éxito que otras), 
para solucionar los problemas derivados de tener que representar eventos con duration, 
eventos concurrentes, eventos que cambian continuamente y otras complicaciones. 

El câlculo de eventos puede ser extendido para manejar efectos indirectos, cambios 
continuos, efectos no deterministas, restricciones causales y otras situaciones. Se reto- 
marân algunos de estos temas en el Apartado 10.3. 
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EVENTO 

GENERALIZADO 


SUBEVENTOS 


Eventos generalizados 

Hasta ahora se han revisado dos conceptos principales: acciones y objetos. Ahora es el 
momento de ver como encajan en una ontologia global, en la cual las acciones y los ob¬ 
jetos pueden ser vistos como aspectos de un universo fisico. Se utilizarâ un universo par- 
ticular compuesto por dimensiones espacial y temporal. En el mundo de wumpus, el 
componente espacial se corresponde con una rejilla bidimensional y el tiempo es dis- 
creto. El mundo real tiene très dimensiones en el espacio y una dimension en el tiem¬ 
po 4 , todas continuas. Un evento generalizado se compone de aspectos de alguna pieza 
espacio-temporal (un segmento del universo espacio-temporal de mültiples dimensio¬ 
nes). Esta abstraccion generaliza la mayorfa de los conceptos que se han visto hasta aho¬ 
ra, incluyendo las acciones, localizaciones, tiempo, flujos y objetos fisicos. La Figura 
10.3 da una idea general. A partir de ahora, se utilizarâ el término simple «evento» para 
referirse a eventos generalizados. 

Por ejemplo, La Segunda Guerra Mundial es un evento que tuvo lugar en varios pun- 
tos en el espacio-tiempo, como représenta la zona sombreada de la figura. Puede ser di- 
vidida en subeventos 5 : 

SubEvento(BatallaDeBretana, SegundaGuerraMundial) 

De modo similar, la Segunda Guerra Mundial es un subevento del siglo xx: 

SubEvento(SegundaGuerraMundial, SigloXX) 

El siglo xx es un intervalo de tiempo. Los intervalos son trozos de especio-tiempo que 
incluyen todo el espacio entre dos puntos de tiempo. La funcion Perlodo(e) dénota el 
intervalo mas pequeno que encierra al evento e. Duraciôn(i ) es la longitud del tiempo 
que ocupa un intervalo, por lo tanto se puede decir Duraciôn(Pen'odo(SegundaGuerra- 
Mundial )) > Anos{ 5). 

Australia es un lugar. Un trozo con unos bordes delimitados en el espacio. Los bor¬ 
des pueden variar en el tiempo, debido a cambios geologicos o politicos. Se utiliza el 
predicado En para denotar la relaciôn de subevento que tiene lugar cuando la proyec- 
cion espacial de un evento es ParteDe otro: 

En(Sydney, Australia ) 

La funcion Localizaciôn{e) dénota el lugar mas pequeno que encierra al evento e. 

Como cualquier otro tipo de objetos, los eventos se pueden agrupar en categorias. 
Por ejemplo, SegundaGuerraMundial pertenece a la categorfa de Guerras. Para decir que 
una guerra civil ocurrio en Inglaterra en 1640, se podria decir: 

3w w e GuerrasCiviles a SubEvento(w, 1640) a En(Localizaciôn(w), Inglaterra) 

La nociôn de categoria de eventos responde a una pregunta que se obvio cuando se des- 
cribieron los efectos de los axiomas en el Apartado 10.3: ;,A qué se refieren los térmi- 


4 Algunos fisicos que estudian la teoria de la cadena, hablan de 10 dimensiones o mâs, y algunos hablan de 
un mundo discreto, pero una représentation espacio-temporal continua de cuatro dimensiones es adecuada para 
el propôsito de hacer razonamientos basados en el sentido comûn. 

5 Nôtese que SubEvento es un caso especial de la relaciôn ParteDe , siendo también transitiva y reflexiva. 
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«espacio» 



Figura 10.3 Eventos generalizados. Un universo tiene dimensiones espaciales y temporales. En 
esta figura se muestra solo una dimension espacial simple. Todos los eventos son ParteDe el uni- 
verso. Un evento, como la SegundaGuerraMundial, ocurre en una porciôn de espacio-tiempo de 
forma algo arbitraria y con variacion en los limites temporales. Un Intervalo, como el SigloXX, tie¬ 
ne una extension temporal fija y una extension espacial mâxima, mientras que un Lugar, como Aus- 
tralia, tiene una extension espacial fija y una extension temporal mâxima. 


nos logicos como Ir([ 1, 1], [1, 2])?, / ; son eventos? La respuesta, posiblemente sorpren- 
dente, es no. Se puede entender esto considerando un plan con dos acciones «idénticas» 
como 


[M[l, 1], [1,2]), Ml, 2], [1, l]), Ml, 1], [1, 2])] 

En este plan, //•([ 1, 1], [1, 2]) no puede ser el nombre de un evento porque hay dos even¬ 
tos diferentes que ocurren en tiempos diferentes. En su lugar, Zr([l, 1], [1, 2]) es el nom¬ 
bre de una catégorie/ de eventos (representando todos los eventos mediante los cuales el 
agente va desde [1, 1] a [1, 2]). El plan de très fases establece que ocurrirân instancias 
de estos très eventos. 

Nôtese que esta es la primera vez que se han visto nombres de categorias formados 
por términos complejos en vez de por constantes. Esto no présenta nuevas dificultados. 
De hecho, se puede usar la estmetura de los argumentas como una ventaja. Mediante la 
eliminacion de argumentos se créa una categoria mas general. 

Ir(x, y) ç= IrA{y) Ir(x, y) Ç= lrDesde{x) 

De modo similar, se pueden anadir argumentos para crear categorias mas especificas. 
Por ejemplo, para describir acciones de otros agentes, se puede anadir un argumento que 
représente al agente. Por lo tanto, el decir que Shankar volo ayer desde Nueva York a 
Nueva Delhi, se podria escribir: 

3 e e e VolariShankar, NuevaYork, NuevaDelhi) a SubEventoie , Ayer) 
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EVENTOS DISCRETOS 


PROCESOS 
EVENTOS LIQUIDOS 


SUSTANCIAS 

TEMPORALES 

SUSTANCIAS 

ESPACIALES 

ESTADOS 


La forma de esta formula es tan comün que se crearâ una abreviacion para ella: E(c, i) 
significarâ que un elemento de una categoria de eventos c es un subevento del evento o 
intervalo /: 


E(c, ï) <=> 3 e e e c a SubEvento(e, i) 

Por lo tanto tenemos que, 

E(yolar(Shankar, NuevaYork, NuevaDelhi ), Ayer) 


Procesos 

Los eventos que se han visto hasta ahora son los que se denominan eventos discretos 
(con una estructura definida). El viaje de Shankar tiene un comienzo, un punto intermedio 
y un final. Si se interrumpe a medio camino, el evento sera diferente (no sera un viaje 
desde Nueva York a Nueva Delhi, sino un viaje desde Nueva York a algün lugar en Eu- 
ropa). Por otro lado, la categoria de eventos representados por Volando{Shankar) tiene 
una cualidad diferente. Si se considéra un pequeno intervalo en el vuelo de Shankar, por 
ejemplo el tercer segmento de 20 minutos (mientras que él espera ansiosamente por una 
segunda maleta de cacahuètes), este evento forma parte todavfa de VoIando(Shankar). 
De hecho, esto es cierto para cualquier subintervalo. 

Las categorias de eventos que cumplen esta propiedad se llaman categorias de pro¬ 
cesos o categorias de eventos liquidos. Todos los subintervalos de un proceso son tam- 
bién miembros de la misma categoria de procesos. Mediante la misma notacion que se 
empleo en los eventos discretos, se puede afirmar que, por ejemplo, Shankar iba volan- 
do en algün momento del dla de ayer: 

E(VoIando(Shankar), Ayer) 

Frecuentemente se necesitarâ expresar que algün proceso se realizo durante cierto in¬ 
tervalo, en vez de que solo se realizo durante cierto subintervalo. Para ello, utilizamos 
el predicado T: 

T{Trabajando{Stuart), HoyHoraDelAlmuerzo) 

T(c, i) significa que cierto evento de tipo c se produjo exactamente durante el intervalo 
i, es decir, el evento comienza y termina al mismo tiempo que el intervalo. 

La diferencia entre eventos liquidos y no liquidos es anâloga a la diferencia entre sus- 
tancias o materia, y objetos individuales. De hecho, algunos han llamado sustancias tem¬ 
porales a los eventos liquidos, mientras que cosas como la mantequilla son sustancias 
espaciales. 

De la misma forma que se describen los procesos de cambio continuo, los eventos 
liquidos puede describir procesos de cambio no continuo. Son llamados estados. Por 
ejemplo, «Encontrândose Shankar en Nueva York» es una categoria de estados que se 
denotan como En(Shankar, NuevaYork). Para decir que él estuvo en Nueva York todo el 
dla, se escribiria 


T(En(Shankar, NuevaYork), Hoy) 
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Se pueden formar eventos y estados mas complejos combinando las primitivas. Esta 
câlculo de flujos aproximaciôn recibe el nombre de câlculo de flujos. El câlculo de flujos se refiere a la 
combinaciôn de flujos, no a flujos individuales. Ya se ha visto una forma de represen- 
tar el evento correspondiente al momento en que dos cosas suceden al mismo tiempo, 
denominado Ambos(e v e n ). En câlculo de flujos, esto se abrevia normalmente con la no- 
taciôn infija <?, o e 2 . Por ejemplo, para decir que alguien caminô y masticaba chicle al 
mismo tiempo, se puede escribir 

3 p, i (p e Genté) a T(Caminar(p ) o MasticarChicle(p), i) 

La funciôn «o» es conmutativa y asociativa, como la conjunciôn lôgica. Se pueden dé¬ 
finir funciones anâlogas a las de disyuncion y negaciôn, pero se debe tener cuidado (hay 
dos formas razonables de interpretar la disyuncion). Cuando se dice «el agente o esta- 
ba caminando o estaba masticando chicle durante los dos ültimos minutos» se puede que- 
rer decir que el agente estaba haciendo una de las dos acciones durante todo el intervalo 
de tiempo, o quizâ que estaba alternando entre las dos acciones. Se utilizarâ UnaDe y 
Cualquiera para indicar estas dos posibilidades. La Figura 10.4 représenta los eventos 
complejos. 


(a) 


(b) 



(c) 


Figura 10.4 Una representaciôn de eventos complejos. (a) T(Ambos(p, q), i), también denotado 
como T(p o q, i), (b) T(UnoDe(p, q), i) (c) T(Cualquiera{p, q), i). 


Intervalos 

El tiempo es importante para cualquier agente que realice acciones, y se ha realizado mu- 
cho trabajo para la representaciôn de intervalos de tiempo. Aqui se consideran dos cla- 
ses: momentos e intervalos extendidos. La diferencia es que solo los momentos tienen 
duraciôn cero: 


Particiôni { Momentos, IntervalosExtendidos }, Intervalos) 
i e Momentos <=> Duraciôn(i) = Segundos{ 0) 

A continuaciôn se crearâ una escala de tiempo y se asociarân puntos con momentos en 
esa escala, de lo cual se obtiene el concepto de tiempo absoluto. La escala de tiempo es 
arbitraria. Se médira en segundos y se dira que el momento de medianoche (GMT) del 
1 de enero de 1900 tiene un valor de tiempo igual a cero. Las funciones Comienzo y Fin 
seleccionan los momentos mas tempranos y tardios en un intervalo, y la funciôn Tiem¬ 
po détermina el punto en la escala de tiempo para un momento. La funciôn Duraciôn 
devuelve la diferencia entre el momento final y el inicial. 
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Intervalo(i) => Duraciôn(i ) = ( Tiempo(Fin(i )) ~ ( Tiempo(Comienzo(i ))) 
Tiempo(Comienzo( 1900DQ) = Segundos( 0) 

Tiempo(Comienzo(2001DC )) = Segundos(3 187324800) 

Tiempo(Fin(200lDC )) = Segundos(32 18860800) 

Duraciôn(200\DC) = Segundos( 31536000) 

Para facilitar la lectura de los nümeros, también se introduce una funciôn Fecha, la cual 
recibe seis argumentos (horas, minutos, segundos, dia, mes y ano) y devuelve un punto 
en el tiempo: 

Tiempo(Fecha(200\DC)) = Fecha( 0, 0, 0, 1, Ene, 2001) 

Fecha(0, 20, 21, 24, 1, 1995) = Segundos( 3000000000) 

Dos intervalos Coinciden si el momento final del primero es igual al momento de ini- 
cio del segundo. También es posible définir predicados como Antes, Después, Durante 
y Solapamiento ünicamente en términos de Coinciden, pero es mas intuitivo definirlos 
en términos de puntos en la escala de tiempo (véase la Figura 10.5 para una representa- 
cion grâfica). 

Coinciden(i,j ) <=> Tiempo(Fin(i )) = Tiempo(Inicio(j )) 

Antes(i,j) O Tiempo(Fin(i)) < Tiempo(Inicio(j )) 

Despuésij, i) <=> Antes(i,j ) 

Duranteü, j) <=> Tiempo(Inicio(j )) ^ Tiempo(Inicio(i)) 

a Tiempo(Fin(i )) ^ Tiempo(Fin(j )) 

Solapanùentoii, j) <=> 3 k Durante(k, i) a Duranteik, j) 

Por ejemplo, para decir que el reinado de Isabel II siguio al de Jorge VI, y el reinado de 
Elvis se solapô con la década de los 50, se puede escribir lo siguiente: 

Antes{ReinadoDe(lsabelIl), ReinadoDe{JorgeVI )) 
Solapamiento(AnosCincuenta, ReinadoDe{Elvis)) 
Inicio{AnosCincuenta ) = Inicio(l950DC) 

Fin(AnosCincuenta) = Fini 1 959DC) 


Coinciden(i, j) 


Antes(i,j) 
Después(j, i ) 


Duranteii , j) [ 


Solapamiento(i,j ) |--— : -1 

Solapamientoij, i ) |- 1 - 


Figura 10.5 Predicados sobre intervalos de tiempo. 
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Flujos y objetos 

Se ha mencionado que los objetos fisicos pueden ser vistos como eventos generaliza- 
dos, en el sentido de que un objeto tïsico es un trozo de espacio-tiempo. Por ejemplo, 
Estados Unidos puede ser visto como un evento que empezô, digamos que en 1776 con 
la union de los 13 estados, y que se encuentra hoy en dla en progreso como union de 50 
estados. Se puede describir el cambio en las propiedades de Estados Unidos usando es¬ 
tados de flujo. Por ejemplo, se puede decir que en un momento determinado de 1999, 
la poblaciôn ascendia a 271 millones: 

E(Poblaciôn(EEUU, 271000000), 1999DQ 

Otra propiedad de Estados Unidos que cambia cada cuatro u ocho anos, a menos que no 
suceda algün contratiempo, es el présidente. Se podrfa proponer que el término lôgico Pre- 
sidente{EEUU ) denotara un objeto diferente para distintos momentos en el tiempo. Des- 
graciadamente esto no es posible, porque un término dénota exactamente a un objeto en 
una estructura de modelos determinada (el término Presidente{EEUU) no puede denotar 
diferentes objetos dependiendo del valor de t, puesto que la ontologla utilizada mantie- 
ne los indices de tiempo separados de los flujos). La ünica posibilidad es que Presiden- 
te{EEUU) dénoté un objeto simple que consista en gente diferente en diferentes momentos 
en el tiempo. Es el objeto que représenta a George Washington desde 1789 hasta 1796, 
John Adams desde 1976 hasta 1800 y asi sucesivamente, como muestra la Figura 10.6. 



Para expresar que George Washington fue présidente durante 1790, se puede escribir 

T(Presidente(EEUU) = George Washington, 1790DC) 

Sin embargo, se necesita ser cuidadoso. En la sentencia anterior, el simbolo igual «=» 
debe ser un simbolo de funciôn en lugar de un operador lôgico estândar. La interpréta- 
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ciôn no es que George Washington y Presidente(EEUU ) son idénticos desde un punto 
de vista lôgico en 1790. La identidad lôgica no es algo que pueda cambiar a lo largo del 
tiempo. La identidad lôgica existe entre los subeventeos de cada objeto que estân defi- 
nidos por el periodo 1790. 

No confundir el objeto fïsico George Washington con una colecciôn de âtomos. Geor¬ 
ge Washington no es idéntico desde un punto de vista lôgico a ninguna colecciôn espe- 
cifica de âtomos, porque el conjunto de âtomos que lo forman varia considerablemente 
en el tiempo. El tiene un tiempo de vida corto y cada âtomo tiene un tiempo de vida muy 
corto. En conjunto, todos se cruzan durante algün periodo de tiempo, durante el cual, el 
tiempo de vida del âtomo es ParteDe George y a partir de ahi evolucionan por separado. 


10.4 Eventos mentales y objetos mentales 


Los agentes que se han construido hasta ahora tienen creencias y pueden deducir nue- 
vas creencias. Pero por ahora ninguno de ellos tiene conocimiento sobre creencias o so¬ 
bre deducciôn. En dominios de un solo agente simple, el conocimiento sobre el propio 
conocimiento y los procesos de razonamiento son ütiles para controlar la inferencia. Por 
ejemplo, si uno es consciente de que no puede conocer nada acerca de la geografia ru- 
mana, entonces no emplearâ un enorme esfuerzo computacional para tratar de calcular 
el camino mâs corto desde Arad a Bucarest. Uno también puede razonar sobre su pro¬ 
pio conocimiento, para construir planes que permitan cambiarlo (por ejemplo com- 
prando un mapa de Rumania). En dominios multiagente, es importante para un agente 
razonar acerca de los estados mentales de los otros agentes. Por ejemplo, un oficial de 
policia rumano posiblemente conocerâ la mejor forma de llegar a Bucarest, por lo que 
el agente podria pedirle ayuda. 

En esencia, lo que se précisa es un modelo de los objetos mentales que existen en la 
cabeza (o en la base de conocimiento) de alguien y los procesos mentales para manipu- 
lar esos objetos mentales. El modelo debe ser fiel a la realidad, pero no tiene por qué ser 
detallado. No se necesita ser capaz de predecir cuântos milisegundos le llevarâ a un agen¬ 
te en concreto realizar una deducciôn, ni tampoco serâ necesario predecir qué neuronas 
se dispararân cuando a un animal se le présenta un determinado estimulo visual. Llega- 
râ con concluir que el oficial de policia rumano podria informar de cômo llegar a Bu¬ 
carest si conoce el camino y se da cuenta de que alguien estâ perdido. 

Una teorfa formai de creencias 

Se comenzô trabajando con las relaciones existentes entre agentes y «objetos mentales» 
(relaciones como Créé, Conoce y Desea ). Las relaciones de este tipo se denominan ac- 
titudes de proposiciôn, porque describen una actitud que un agente puede tomar hacia 
una proposiciôn. Supôngase que Lois créé algo, es decir, Cree(Lois, x ). / ; Qué tipo de cosa 
es x? Obviamente x no puede ser una sentencia lôgica. Si Vuela(Supermâri) es una sen- 
tencia lôgica, no se puede decir CreeiLois, Vuela(Supermân )), porque solo los términos 
(no las sentencias) pueden ser argumentos de los predicados. Pero si Vuela es una fun- 
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REIFICACION 


TRANSPARENCIA 

REFERENCIAL 

OPACO 

LÔGICA MODAL 

OPERADORES 

MODALES 

TEORiA SINTÂCTICA 
CADENAS 

AXIOMA DE CADENA 
ÜNICA 


ciôn, entonces Vuela(Supermân ) es un candidato para ser un objeto mental, y Créé pue- 
de ser una relaciôn entre una gente y un flujo proposicional. Convertir una proposicion 
en un objeto, se conoce con el nombre de reificaciôn 6 . 

Esto parece proporcionar lo que se necesita: la capacidad para que un agente razo- 
ne sobre las creencias de los agentes. Desafortunadamente, hay un problema con esta 
aproximaciôn: si Clark y Supermân son uno al mismo tiempo (es decir, Clark = Su- 
permâri) entonces los vuelos de Clark y Supermân son el mismo y pertenecen a la mis- 
ma categorfa de eventos, es decir, Vuela(Clark ) — Vuela(Supermân). Por lo tanto, se debe 
concluir que si Lois créé que Supermân puede volar, él también créé que Clark puede 
volar, incluso si ella no créé que Clark es Supermân. Es decir, 

(,Supermân = Clark ) ( Cree(Lois, VuelaiSupermân ) ) <=> Cree(Lois, Vuela(Clark))) 

Una de las interpretaciones de lo anterior es vâlida: Lois créé que cierta persona, que a 
veces se llama Clark, puede volar. Pero existe otra interpretaciôn que es errônea: si se 
le pregunta a Lois /puede volar Clark?, indudablemente contestaria que no. Los obje- 
tos reificados y los eventos funcionan bien para la primera interpretaciôn de Créé, pero 
para la segunda interpretaciôn séria necesario reificar las descripciones de taies objetos 
y eventos, de manera que Clark y Supermân puedan ser descripciones distintas (aunque 
se refieran al mismo objeto). 

Desde un punto de vista técnico, a la propiedad de sustituir libremente un término 
por otro igual se le denomina transparencia referencial. En lôgica de primer orden, to- 
das las relaciones tienen trasparencia referencial. Convendria définir Créé (y las otras 
actitudes de proposicion) como relaciones cuyo segundo argumento es opaco referen- 
cialmente, es decir, no es posible sustituir el segundo argumento por un término igual 
sin cambiar el significado. 

Existen dos formas de lograr esto. La primera es usar una lôgica diferente, denomi- 
nada lôgica modal, en la cual las actitudes de proposicion como Créé y Sabe son ope- 
radores modales que son referencialmente opacos. Esta aproximaciôn se trata en la 
secciôn de notas histôricas. La segunda aproximaciôn que se desea lograr, es conseguir 
una opacidad efectiva con un lenguaje transparente referencialmente usando una teoria 
sintâctica de objetos mentales. Esto significa que los objetos mentales serân represen- 
tados por cadenas. El resultado es un modelo rudimentario de la base de conocimiento 
de un agente, que consiste en cadenas que representan sentencias que son creidas por el 
agente. Una cadena no es mâs que un término complejo denotado por una lista de sim- 
bolos, asi, el evento Vuela{Clark), puede ser representado por la lista de caractères 
[V, u,e,l,a,(,C,l,a,r, k,)\, que se abreviarâ como «Vuela(Clark)». La teoria sintâctica incluye 
un axioma de cadena unica que establece que las cadenas son idénticas si y solo si es- 
tân formadas por caractères idénticos. Por lo tanto, incluso si Clark = Supermân, se se- 
guirâ teniendo que «Clark» # « Supermân ». 

Ahora solo falta proponer sintaxis, semântica y teoria de la demostraciôn corres- 
pondientes al lenguaje de representaciôn de la cadena, como en el caso del Capitulo 7. 


6 El lérmino «reificaciôn» viene de la palabra Lalina res, o cosa. John McCarthy propuso el término «cosifi- 
caciôn», pero nunca llegô a ser popular. 
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La diferencia es que ahora hay que definirlas a todas mediante logica de primer orden. 
Se comenzarâ por définir Den como aquella funcion que correlaciona una cadena con 
el objeto que dénota ésta, y a Nombrar como la funcion que correlaciona un objeto con 
una cadena que es el nombre de una constante que dénota al objeto. Por ejemplo la de- 
notacion de «Clark» como « Supermân » es el objeto referido mediante el simbolo cons¬ 
tante HombreDeAcero, y el nombre de tal objeto puede ser tanto « Supermân » como 
«Clark », o alguna otra constante, por ejemplo, «X n ». 

Den{«Clark») = HombreDeAcero a Den(«Supermân») = HombreDeAcero 
Nombrar {HombreDeAcero) = «Z u » 

El siguiente paso consiste en définir las réglas de inferencia de los agentes logicos. Por 
ejemplo, digamos que se desea que el agente logico sea capaz de efectuar un Modus Po- 
nens : si créé p y también créé p => q, enfonces también créé q. El primer ensayo de como 
escribir este axioma es: 

AgenteLôgico{a) a Cree{a, p ) a Cree(a, «p => q») => Cree(a, q) 

Pero es incorrecte, puesto que aunque la cadena «p => q» contiene las letras «p» y «q», 
no tiene nada que ver con las cadenas que corresponden a los valores de las variables p 
y q. La formulacion correcta es 

AgenteLôgico{a ) a Cree(a, p) a Cree(a, Concatenar(p, «=>», q)) => Cree(a, q) 

donde Concatenar es una funcion de las cadenas que concatena entre si a sus elemen- 
tos. Se abreviarâ Concatenar(p, «=»>, q) como «p=> q». Es decir, la aparicion de xden- 
tro de una cadena es no acotada, con el significado de que se debe sustituir la variable 
x por su valor. Los programadores de Lisp identificarân lo anterior como un operador 
de cita reversiva, y los programadores de Perl lo reconocerân como una interpolacion 
de una variable de tipo $. 

Una vez anadidas las otras réglas de inferencia ademâs de Modus Ponens, se podrâ 
responder a preguntas como «si un agente logico conoce estas premisas, <-podrâ llegar 
a esa conclusion?». Ademâs de las réglas de inferencia normales, también son necesa- 
rias algunas réglas especificas de creencia. Por ejemplo, la siguiente régla afirma que si 
un agente logico créé algo, enfonces también créé que lo créé: 

AgenteLôgico{a ) a Cree{a, p) => Cree(a, «Cree{Nombrar(a ), p)») 

A partir de ahora, de acuerdo con el axioma, un agente puede deducir cualquier conse- 
cuencia de su creencia de un modo infalible. Esto se llama omnisciencia logica. Se han 
realizado numerosos intentos para tratar de définir agentes racionales limitados, los 
cuales pueden realizar un nümero limitado de deducciones en un tiempo también limi- 
tado. Nada es completamente satisfactorio, pero esta formulacion permite un rango muy 
restringido de predicciones sobre agentes limitados. 

Conocimiento y creencia 

Las relaciones entre creencia y conocimiento se han estudiado de forma exhaustiva en 
Filosofia. Es conocida la afirmacion en el sentido de que el conocimiento no es sino una 
creencia valida demostrada. Por ejemplo, si usted créé algo, y si esto ültimo realmente 
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es cierto, y tiene la prueba de ello, entonces usted lo sabe. La demostraciôn es indis¬ 
pensable, pues evitarâ que usted afirme «Sé que el resultado de lanzar esta monda al aire 
sera una cara» y que solo sea cierto la mitad de las veces. 

Considérese que Sabe{a, p) significa que el agente a sabe que la preposiciôn p es 
cierta. También es posible définir otras clases de conocimiento. Por ejemplo, a conti- 
nuaciôn se establece una definiciôn de «saber si»: 

SabeSi(a, p) <=> Sabe(a, p) v Sabe(a, «—>/?») 

Continuando con el ejemplo, Lois sabe si Clark puede volar tanto si ella sabe que Clark 
puede volar, como si no. 

El concepto de «saber que» es mas complicado. Uno puede sentirse tentado a acep- 
tar que un agente sabe que el numéro de teléfono de Bob es una x para la cual x = Nu¬ 
méro Teléfono(Bob). Pero esto no es suficiente, porque el agente podrfa conocer que Alice 
y Bob tienen el mismo numéro de teléfono (es decir, NûmeroTeléfono(Bob ) = Nûmero- 
Teléfono{Alice )), pero si el nümero de teléfono de Alice es desconocido, esto no séria de 
mucha ayuda. Una definiciôn mejor de «saber que» séria que el agente debe saber cier¬ 
ta x que es una cadena de digitos y que es el nümero de Bob: 

SabeQue(a, «NûmeroTeléfono(b )») <=> 

3 x Sabe(a, «x = NûmeroTeléfono(b)») axe SecuenciaDeDîgitos 

Desde luego que para otro tipo de preguntas los criterios serân disjuntos, dependiendo 
de lo que se considéré como una respuesta aceptable. En el caso de la pregunta «/cual 
es la capital de Nueva York?», una respuesta aceptable séria un nombre propio, «Al- 
bani», no algo como «la ciudad en donde esta la câmara legislativa del estado». Para 
ello, se harâ que SaberQue sea una relaciôn de très partes: emplearâ un agente, un tér- 
mino y un predicado que integren la respuesta valida. Por ejemplo, se podria tener lo 
siguiente: 

SabeQue(Agente, «Capital(NuevaYork)», NombrePropio ) 

SabeQue(Agente, «NûmeroTeléfono{Bob )», SecuenciaDeDîgitos) 

Conocimiento, tiempo y acciôn 

En la mayoria de las situaciones reales, un agente tratarâ con creencias (las suyas pro- 
pias o las de otros agentes) que cambian en el tiempo. El agente también tendra que ha- 
cer planes que involucren cambios de sus propias creencias, como comprar un mapa para 
averiguar como llegar a Bucarest. Como con otros predicados, se podrâ reificar Créé y 
hablar sobre creencias que ocurren en un perfodo de tiempo. Por ejemplo, para decir que 
Lois créé hoy que Supermân puede volar, se escribirâ 

T(Cree(Lois, «Volar(Supermân)»), Hoy ) 

Si el objeto de creencia es una proposiciôn que puede cambiar en el tiempo, entonces 
también se puede describir utilizando el operador T dentro de la cadena. Por ejemplo, 
Lois podria creer hoy que Supermân pudo volar ayer: 

T(Cree(Lois, «T(Volar(Supermân), Ayer)», Hoy) 
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Dada una forma de describir las creencias en el tiempo, se puede usar la maquina- 
ria del câlculo de eventos para realizar planes que incluyan creencias. Acciones que pue- 
den tener precondiciones de conocimiento y efectos de conocimiento. Por ejemplo, 
la accion de marcar un nümero de teléfono tiene la precondiciôn de conocer dicho nü- 
mero, y la accion de buscar el nümero tiene el efecto de conocer el nümero. Se puede 
describir esta ültima accion a través de la maquinaria del câlculo de eventos: 


VARIABLES 
DE EJECUCIÔN 


Iniciar(Buscar(a, «NûmeroTeléfono{b )»), 

SabeQue(a, «NûmeroTeléfono(b)», SecuenciaDeDigitos), t) 

Las variables de ejecuciôn se utilizan frecuentemente como notaciôn abreviada para re- 
presentar planes que unen y utilizan informaciôn. Esto es similar a la convenciôn de va¬ 
riable no acotada vista con anterioridad. Por ejemplo, el plan para buscar el nümero de 
teléfono de Bob y llamarlo a continuaciôn puede ser escrito como 


[Buscar(Agente, «NümeroTeléfonolBob)», n), Llamar(n)] 


Aqui, n es una variable de ejecuciôn cuyo valor sera establecido por la accion Buscar y 
puede ser usado por la accion Llamar. Los planes de este tipo ocurren frecuentemente 
en dominios parcialmente observables. Se verân ejemplos en la secciôn siguiente y en 
el Capitulo 12. 


10.5 El mundo de la compra por Internet 


En esta secciôn se codificarâ algün conocimiento relacionado con la compra a través de 
Internet. Se crearâ un agente que investigue compras y ayude al comprador a encontrar 
ofertas de productos en Internet. El comprador da al agente de compra una descripciôn 
de un producto, y el agente debe producir un listado de paginas web que oferten ese pro- 
ducto. En algunos casos, la descripciôn del producto que da el comprador sera précisa, 
como para la câmara digital Coolpix 995, y la tarea sera encontrar aquellas tiendas que 
tengan una mejor oferta. En otros casos la descripciôn sera solo parcialmente especifi- 
cada, como una câmara digital por un precio inferior a 300 dôlares, y el agente tendra 
que comparar productos diferentes. 

El entorno del agente de compra es toda la WWW ( Word Wide Web), no un entorno 
de juguete simulado, sino un entorno complejo que evoluciona constantemente y que es 
usado por millones de personas cada dia. La percepciôn del agente serân las paginas web, 
pero mientras un usuario de la Web percibe las paginas como vector de puntos en pan- 
talla, el agente de compra recibirâ la pagina como una cadena de caractères, que con¬ 
siste en un conjunto de palabras ordinarias intercaladas con comandos de formato en 
lenguaje HTML. La Figura 10.7 muestra una pagina web y su cadena de caractères HTML 
correspondiente. El problema de la percepciôn para el agente de compra abarca la ex- 
tracciôn de la informaciôn ütil de percepciones de este tipo. 

Claramente, la percepciôn de paginas web es mas fâcil que, por ejemplo, la percep¬ 
ciôn mientras se conduce un taxi en El Cairo. Sin embargo, existen complicaciones en 
la tarea de percepciôn en Internet. La pagina web de la Figura 10.7 es muy simple com- 
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Almacén Genérico online 

Seleccionar una de nuestras trabajadas lmeas de productos: 

• Computadores 

• Câmaras 

• Libros 

• Videos 

• Müsica 


<hl>Almacén Genérico on-line</hl> 

<i>Seleccionar</i> una de nuestras trabajadas lineas de productos: 
<ul> 

<li> <a href=«http://gen-store.com/compu»>Computadores</a> 

<li> <a href=«http://gen-store.com/cama»>Câmaras</a> 

<li> <a href=«http://gen-store.com/libr»>Libros</a> 

<li> <a href=«http://gen-store.com/vide»>Videos</a> 

<li> <a href=«http://gen-store.com/musi»>Mûsica</a> 

</ul> 


Figura 10.7 Una pagina web procedente de un almacén genérico online en la forma percibida 
por una persona (arriba), y la correspondiente cadena HTML percibida por el navegador web o el 
agente de compra (abajo). En HTML, los caractères entre < y > son étiquetas que especifican como 
se muestra la pagina. Por ejemplo, la cadena <i>Seleccionar</i> implica establecer una fuen- 
te en cursiva, mostrar la palabra Seleccionar y finalizar con el uso de la fuente cursiva. Un identi- 
ficador de pagina como http: / /gen-store. com/libr se denomina un localizador de recursos 
uniforme o URL. La étiqueta <a href=“url”>ancla</a> implica la creacion de un hipervmculo 
a la url con el texto del enlace ancla. 


parada con webs reales dedicadas a la compra de articulos, que incluyen cookies, Java, 
Javascript, Flash, protocolos de exclusion de robots, codigo HTML con incorrecciones, 
ficheros de sonido, clips de peliculas y texto que aparece solo como imâgenes JPEG. Un 
agente que sea capaz de tratar con todo Internet es casi tan complejo como un robot que 
pueda mover un objeto en el mundo real. El planteamiento se centrarâ en un agente que 
ignore la mayoria de estas complicaciones. 

La primera tarea del agente es encontrar ofertas relevantes de productos (se verâ 
posteriormente como seleccionar la mejor oferta de las relevantes). Sea peticiôn la 
descripciôn del producto que el usuario teclea (por ejemplo, «portâtiles»). Entonces una 
pagina es una oferta relevante para peticiôn si la pagina es relevante y la pagina es efec- 
tivamente una oferta. También se seguirâ la pista de la URL asociada con la pagina: 

OfertaRelevanteipâgina, url, peticiôn) <=> 

Relevante(pâgina, url, peticiôn) a Oferta(pôigina) 

Una pagina con una comparativa de los portâtiles mas modernos deberfa ser relevante, pero 
si no proporciona un mecanismo para comprar, no es una oferta. Por ahora, se dira que 
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una pagina es una oferta si contiene la palabra «compra» o «precio» en un enlace HTML 
o en un formulario. En otras palabras, si la pagina contiene una cadena de la forma: 
«<a ...compra ..</&» enfonces es una oferta. También podria aparecer «precio» 
en vez de «compra» o usar la étiqueta «form» en vez de la étiqueta «a». Se puede es- 
cribir un axioma para esto: 

Ofertaipâginà) <=> EnEtiqueta(«a», str, pâgind) v 

EnEtiqueta(«form», str, pâgina)) 
a ( En(«comprar», str ) 
v ( En(«precio», str)). 

EnEtiqueta(etiqueta, cadena, pâgina) <=> En(« < » + étiqueta + str + 

« < /» + étiqueta, pâgina). 

En{subcadena, cadena) <=> 3 i str[i : i + Longitud(subcadena)] 

= subcadena. 

Ahora se necesita encontrar paginas relevantes. La estrategia es empezar en la pâgina 
de inicio de un almacén general y considerar todas las paginas a las que se puede llegar 
siguiendo los enlaces relevantes 7 . El agente tendra conocimiento acerca de varios al- 
macenes, por ejemplo: 

Amazon e AlmacenesOnLine a PâginaDeInicio(/\mazon, «amazon.com»), 

Ebay e AlmacenesOnLine a PâginaDeInicio{Ebay, «ebay.com»), 

GenStore e AlmacenesOnLine a PâginaDeInicio{GenStore, « gen-store.com ») 

Los almacenes clasifican sus productos en categorfas de productos, y proporcionan en¬ 
laces a las categorfas principales desde sus paginas de inicio. Las categorfas descendientes 
se pueden localizar siguiendo los enlaces relevantes, y finalmente se accédera a las ofer- 
tas. En otras palabras, una pâgina es relevante para la peticion si se puede localizar a tra- 
vés de enlaces relevantes de categorfas que parten de la pâgina principal del almacén, y 
enfonces se seguirân uno o mâs enlaces a ofertas de productos: 

RelevanteQtâgina, url, peticion) <=> 

3 almacén, inicio almacén e AlmacenesOnLine a 
PâginaDelnicioialmacén, inicio) 

a 3 url 2 EnlacesRelevanteiinicio, url 2 , peticion) a Enlace(url 2 , url) 
a pâgina = ObtenerPâgina(url) 

Aquf el predicado Enlaceide, a) significa que existe un hipervfnculo desde la URL de 
hasta la URL a (véase Ejercicio 10.13). Para définir qué se tiene en cuenta en Enlaces- 
Relevante, no se podrâ seguir cualquier hipervfnculo, sino aquellos cuyo texto indique 
que es relevante para la peticion del producto. Para ello, se utilizarân TextoDeEnlace{de, 
a, texto) para significar que hay un enlace entre de hacia a con el texto especificado por 
texto. Una cadena de enlaces entre dos URL’s, inicio y fin, es relevante para una des- 
cripcion d si el texto del hipervfnculo de cada enlace contiene un nombre de categorfa 


7 Una altemativa a la estrategia de seguir los enlaces es la de usar los resultados de un motor de büsqueda de 
Internet. La tecnologla que hay detrâs de un buscador de Internet, récupération de informaciôn, sera tratada 
en la Section 23.2. 
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relevante para d. La existencia de la cadena de enlaces en si misma se détermina por una 
definicion recursiva con el enlace vacio ( inicio = fin) como caso base: 

EnlacesRelevantes(inicio, fin, peticion) <=> (inicio = fin) 
v (3 u, texto Texto D eEnl ace (in ic io , u, texto ) 
a NombreCategoriaRe levante) peticiôn, texto ) 
a Enlace sRelevante(u, fin, peticiôn )) 

Ahora se puede définir lo que debe contener texto para que sea un N ombreCategorla- 
Relevante para peticiôn. Esto se realiza utilizando el predicado Nombre(s, c), que dice 
que la cadena s es un nombre de categoria c (por ejemplo, se puede afirmar que Nom- 
bre(«portâtiles», ComputadoresPortâtiles). Algunos ejemplos mas dcl predicado Nombre 
aparecen en laFigura 10.8(b). A continuacion, se définira el concepto de relevancia. Su- 
pôngase que la peticiôn es «portables». Enfonces NomhreCategoriaRe levant eipetic ion, 
texto ) es cierto cuando una de las siguientes afirmaciones es cierta: 

• El texto y la peticiôn hacen referencia a la misma categoria (por ejemplo, «com- 
putadores portables» y «portables»), 

• El texto hace referencia a una supercategoria como «computadores». 

• El texto hace referencia a una subcategoria como «notebooks ultraligeros». 

La definicion lôgica de NômbreCategorîaRelevante es la siguiente: 

NombreCategonaRelevanteipeticiôn, texto ) <=> 

3 Cj, c 2 Nombre{peticiôn, c,) a Nombre(texto, c 2 ) a (c , Ç c 2 v c 2 ^ c ,) (10.1) 

Aparté de esto, el texto del hipervinculo es irrelevante porque se refiere a una categoria 
fuera de esta linea, como «computadores mainframe» o «césped & jardin». 

Para seguir enlaces relevantes, es esencial tener una jerarquia rica en categorias de 
productos. La parte superior de esta jerarquia deberia ser parecida a la mostrada en la 
Figura 10.8(a). No sera viable realizar un listado de todas las categorias de compras po- 
sibles, porque a un comprador le podrian surgir nuevos deseos y los fabricantes crearian 
nuevos productos para satisfacer a los clientes Qcalcntadorcs de rotula eléctricos?). Sin 


Libros c Productos 
GrahacionesMusicales <= Productos 
CDsMusicales c GrahacionesMusicales 
CintasMûsica a GrahacionesMusicales 
Electrônica a Productos 
CâmarasDigitales a Electrônica 
EquipamientoEstéreo <= Electrônica 
Computadores a Electrônica 
ComputadoresPortâtiles a Computadores 
ComputadoresSobreMesa a Computadores 

(a) 


Nomhre(«lihros», Libros) 

Nomhre{«mûsica», GrahacionesMusicales) 
Nombre(«CDs», CDsMusicales) 
Nombre(«cintas», CintasMûsica) 
Nombre(«electrônica», Electrônica) 
Nombre{«ccimaras digitales», CâmarasDigitales) 
Nombre{«estéreos», EquipamientoEstéreo) 
Nombre(«computadores», Computadores) 
Nombre(«portâtiles», ComputadoresPortâtiles) 
Nombre(«sobremesa», ComputadoresSobreMesa) 

(b) 


Figura 10.8 (a) Taxonomia de categorias de productos. (b) Palabras usadas para esas categorias. 
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embargo, una ontologia de aproximadamente 1.000 categorias séria una herramienta muy 
ütil para la mayoria de los compradores. 

Ademâs de la jerarqufa de productos en si misma, también es necesario tener un vo- 
cabulario rico para los nombres de las categorias. La vida séria mucho mas sencilla si 
hubiera una correspondencia uno a uno entre categorias y cadenas de caractères para nom- 
brarlas. Ya se ha comentado el problema de la sinonimia (dos nombres para la misma 
categoria, como «computadores portâtiles» y «portables»). También existe el problema 
de la ambigüedad (un nombre para dos o mas categorias diferentes). Por ejemplo, si se 
anade la sentencia 


Nombre(«CDs», CertificadosDeDepôsito ) 


AC0PLAMIENT0 

FUNCIONAL 


a la base de conocimiento de la Figura 10.8(b), entonces «CDs» nombrarâ a dos cate¬ 
gorias diferentes. 

Sinonimia y ambigüedad pueden causar un incremento significativo en el nümero 
de caminos que el agente debe seguir, y puede algunas veces hacer dificil el determinar 
si una pagina dada es realmente relevante. Un problema mucho mas serio es la existen- 
cia de un amplio rango de descripciones que un usuario puede teclear, asi como nom¬ 
bres de categorias que un almacén puede emplear. Por ejemplo, un enlace podria decir 
«portâtil» cuando la base de conocimiento tiene solo «portâtiles», o el usuario podria pre- 
guntar por «un computador que pueda encajar en una mesa portâtil de un asiento de cla- 
se econômica en un Boeing 737». Résulta imposible enumerar a priori todas las formas 
de nombrar a una categoria, por lo que el agente tendrâ que ser capaz de realizar un ra- 
zonamiento adicional para determinar si la relaciôn Nombre es cierta. En el peor caso, 
esto requiere una comprensiôn compléta del lenguaje natural, un tema que se posterga- 
râ hasta el Capitulo 22. En la prâctica, unas pocas réglas simples (como el permitir que 
«portâtil» case con una categoria llamada «portâtiles») sigue un largo camino. El Ejer- 
cicio 10.15 propone el desarrollo de un conjunto de réglas después de hacer algunas in- 
dagaciones en los almacenes online. 

Dadas las definiciones lôgicas de los pârrafos precedentes y las bases de conocimiento 
apropiadas sobre categorias de producto y convenciones de nombres, ; sc estâ prepara- 
do para aplicar un algoritmo de inferencia y obtener un conjunto de ofertas relevantes 
para la peticion?, ;no exactamente! El elemento que falta es la funcion ObtenerPâgi- 
na(url), que se refiere a la pâgina HTML de una URL determinada. El agente no tiene 
el contenido de cada URL en su base de conocimiento, ni tampoco réglas explicitas para 
deducir qué tipo de contenidos encontrarâ. En su lugar, se puede hacer que el procedi- 
miento HTTP correcto se ejecute siempre que un subobjetivo necesite la funcion Obte- 
nerPâgina. De esta forma, se hace creer al motor de inferencia que la Web entera se 
encuentra dentro de la base de conocimiento. Esto es un ejemplo de la técnica general 
denominada acoplamiento funcional, segün el cual predicados y funciones particula- 
res pueden ser manejadas por métodos de proposito especifico. 


Comparaciôn de ofertas 

Asümase que el proceso de razonamiento de la secciôn precedente ha producido un con¬ 
junto de pâginas con ofertas para la peticion sobre «portâtiles». Para comparar esas ofer- 
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tas, el agente debe extraer la informaciôn relevante (precio, velocidad, tamano del dis- 
co duro, peso, etc.) de las paginas recuperadas. Esto puede ser una tarea dificil en pagi¬ 
nas web reales por las razones que se comentaron con anterioridad. Un modo comün de 
envoltorio abordar este problema es usar algunos programas de tipo envoltorio para extraer infor¬ 

maciôn de la pagina. La tecnologia para la extraction de informaciôn se trata en la Sec¬ 
tion 23.3. Por ahora, se asumirâ que los programas de tipo envoltorio existen, y cuando 
se les proporciona una pagina determinada y una base de conocimiento, anaden aserciones 
a la base de conocimiento. Normalmente se aplicarâ una jerarquia de programas de tipo 
envoltorio a una pagina: uno muy general para extraer fechas y precios, uno mas espe- 
tifico para extraer atributos de productos relacionados con los computadores y, si es ne- 
cesario, uno espetifico para el sitio web particular y que conozca el formato concreto 
del almacén. Dada una pagina en el sitio de gen-store.com con el texto 

YVM ThinkBook 970. Nuestro Precio: 1449.00$ 

seguido de varias especificaciones técnicas, se desearâ un programa envoltorio para ex¬ 
traer informaciôn como la siguiente: 

3 le, oferta le e ComputadoresPortâtiles a oferta e OfertaDeProductos a 
Tarn a no Pan talladc, Pulgadas{ 14)) a TipoPantallaflc, ColorLCD) a 
TamanoMemoria{lc, Megabytes( 512)) a VelocidadCPU(lc, GHi( 2.4)) a 
ProductoOfrecido(oferta, le) a Almacén(oferta, GenStore ) a 
URL{oferta, «genstore.eom/comps/34 356./tfm/») a 
Precio(oferta, $(449)) a Fecha(oferta, Hoy) 

Este ejemplo ilustra varios temas que surgen cuando se toma en serio la tarea de aplicar 
ingenieria de conocimiento a las transacciones comerciales. Por ejemplo, destacar que 
el precio es un atributo de una oferta, no del producto en si mismo. Esto es importante 
porque la oferta en un almacén determinado puede cambiar dia a dia, incluso para el mis¬ 
mo portâtil. Para algunas categorias (como casas y pinturas) el mismo objeto individual 
puede ser ofrecido simultâneamente por diferentes intermediarios a diferentes precios. 
Todavia hay mas complicaciones que aün no se han manejado, como la posibilidad de 
que el precio dependa del método de pago y de la clasificaciôn del comprador para cier- 
tos descuentos. Sea como sea, todavia queda un montôn de trabajo interesante por ha- 
cer. 

La tarea final es comparar las ofertas que han sido extraidas. Por ejemplo, considé- 
rense estas très ofertas: 

A : 2.4 GHz CPU, 512MB RAM, 80 GB disk, DVD, CDRW, 1695$. 

B : 2.0 GHz CPU, 1GB RAM, 120 GB disk, DVD, CDRW, 1800$. 

C : 2.2 GHz CPU, 512MB RAM, 80 GB disk, DVD, CDRW, 1800$. 

C es dominada por A, es decir, A es mas barato y mas râpido, y todas las demâs carac- 
terfsticas son iguales. En general, X domina a Y si X tiene un valor mejor en al menos 
un atributo, y no es peor en los atributos restantes. Pero ni A ni R dominan la una a la 
otra. Para decidir cuâl es mejor, se necesita conocer como sopesa el comprador la velo¬ 
cidad de CPU y el precio, frente a la memoria y la capacidad en disco. El tema general 
de preferencias entre mültiples atributos se aborda en la Section 16.4. Por ahora, el agen- 
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te de compra simplemente devolverâ una lista con todas las ofertas no dominantes que 
cumplen con la descripciôn del comprador. En este ejemplo, tanto A como B no son do¬ 
minantes. Nôtese que esta salida se basa en la asunciôn de que todo el mundo prefiere 
precios mas baratos, procesadores mas râpidos y mas capacidad de almacenamiento. Al- 
gunos atributos, como el tamano de pantalla en un portâtil, dependen de las preferen- 
cias particulares del usuario (portabilidad vs. visibilidad). Para éstas, el agente de compra 
preguntarâ al usuario. 

El agente de compra que se ha descrito aqui es muy simple y se pueden realizar mu- 
chos refinamientos. De todos modos, tiene suficiente capacidad para ser utilizado como 
asistente para la compra, siempre y cuando se disponga de conocimiento correcto acer- 
ca del domino especifico. Debido a su construccion declarativa, es fâcilmente extensi¬ 
ble para aplicaciones mas complejas. El punto principal en esta secciôn es mostrar que 
es necesaria una representacion del conocimiento (en particular de la jerarquia de pro- 
ductos), para la construccion de un agente de este tipo, y que una vez que se dispone de 
conocimiento en esta forma, no es muy complicado disenar un agente basado en cono¬ 
cimiento que haga el resto. 


10.6 Sistemas de razonamiento para categorias 


Se han visto las categorias como bloques de construccion primarios para cualquier es- 
quema de representacion del conocimiento a gran escala. Existen dos familias de siste¬ 
mas mtimamente relacionadas: (i) las redes semânticas proporcionan una ayuda grâfica 
para visualizar una base de conocimiento, asi como algoritmos eficientes para inferir pro- 
piedades de un objeto con base en su pertenencia a una categoria; (ii) la lôgica descriptiva 
proporciona un lenguaje formai para construir y combinar definiciones de categorias, asi 
como algoritmos eficientes para decidir las relaciones de subconjunto y superconjunto 
entre categorias. 


Redes semânticas 

grafos En 1909, Charles Peirce propuso una notacion grâfica de nodos y arcos denominada gra- 

existenciales f'os existenciales que él denominô «la lôgica del futuro». Entonces empezô un debate 

de larga duraciôn entre los defensores de la «lôgica» y los defensores de las «redes se¬ 
mânticas». Desafortunadamente, el debate oscureciô el hecho de que las redes semân¬ 
ticas (por lo menos aquellas con un concepto de semântica bien definido) son una forma 
de lôgica. La notacion que proporcionan las redes semânticas para cierta clase de sen- 
tencias es a menudo mâs conveniente, pero si se déjà de lado la «interfaz humana», los 
conceptos base (objetos, relaciones, cuantificaciôn, etc.) son los mismos. 

Existen diversas variantes de las redes semânticas, pero todas son capaces de repre- 
sentar objetos individuales, categorias de objetos y relaciones entre objetos. Una nota- 
ciôn grâfica comün visualiza objetos o nombres de categorias en ôvalos o cajas, y los 
conecta con arcos etiquetados. Por ejemplo, la Figura 10.9 tiene un enlace MiembroDe 
entre Mary y PersonaFemenina, correspondiente a la aserciôn lôgica Mary e Persona 
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Femenina. De igual modo, el enlace HemanaDe entre Mary y John corresponde a la aser- 
cion HermanaDe{Mary, John). Se pueden conectar categorfas usando enlaces Suhcon- 
juntoDe. Es tan divertido dibujar burbujas y fléchas que uno puede dejarse llevar. Por 
ejemplo, se conoce que todas las personas tienen una madré de sexo femenino, por lo 
tanto ^se puede dibujar un enlace TieneMadre desde Personas hasta PersonaFemeninal 
La respuesta es no, porque TieneMadre es una relaciôn entre una persona y su madré, y 
las categorfas no tienen madré 8 . Por esta razon, se ha usado una notacion especial (en 
enlace con caja doble) en la Figura 10.9. Este enlace expresa que 

V x x e Personas => [V y TieneMadre(x, y) => y e PersonaFemenina ] 
También se podrîa querer afirmar que las personas tienen dos piernas, por lo que, 

V x x e Personas => Piernas(x, 2) 

Como antes, se necesita ser cuidadoso para no afirmar que una categorfa tiene piemas. 
La caja con linea simple de la Figura 10.9 se usa para especificar propiedades de cada 
miembro de una categorfa. 

La notacion de la red semântica hace muy conveniente la utilizacion de razonamiento 
basado en herencia del tipo del introducido en la Seccion 10.2. Por ejemplo, por el he- 
cho de ser persona, Mary hereda la propiedad de tener dos piernas. Por lo tanto, para sa- 
ber cuântas piemas tiene Mary, el algoritmo de herencia sigue el enlace MiembroDe desde 
Mary hasta la categorfa a la cual pertenece y entonces continüa por el enlace Subcon- 
juntoDe hasta encontrar la categorfa en la cual existe un enlace etiquetado con el recuadro 
Piernas (en este caso, la categorfa Personas). La simplicidad y eficiencia de este meca- 
nismo de inferencia, comparado con el teorema de la prueba lôgica, ha sido uno de los 
mas atractivos para las redes semânticas. 


8 Varios sistemas desarrollados hace tiempo fallaron en distinguir entre propiedades de miembros de una ca¬ 
tegorfa y propiedades de la categorfa como un todo. Esto puede llevar directamente a inconsistencias, como 
apuntô Drew McDermott (1976) en su articulo Artificial Intelligence Meets Nattirai Stupidity. Otro problema 
comün fue el uso del enlace EsUn para los subconjuntos y las relaciones de pertenencia, en correspondencia 
con el uso inglés: «un gato es un mamffero» y «Fifi es un gato». Véase el Ejercicio 10.25 para mas informa- 
ciôn sobre este punto. 
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HERENCIA MÜLTIPLE 


ENLACES INVERSOS 


La herencia se complica cuando un objeto puede pertenecer a mas de una categoria, 
o cuando una categoria puede ser un subconjunto de varias categorias. Esto se conoce 
con el nombre de herencia mûltiple. En estos casos, el algoritmo de herencia puede en- 
contrar dos o mas valores en conflicto que resuelvan la pregunta. Por esta razôn, no se 
permite herencia mûltiple en algunos lenguajes de programaciôn orientada a objetos 
(POO), como Java, que usa la herencia para la jerarquia de clases. La herencia mûltiple 
es permitida comünmente en las redes semânticas, pero se postergarâ esta discusiôn has- 
ta la Secciôn 10.7. 

Otra forma comün de herencia es el uso de enlaces inversos. Por ejemplo, Tiene- 
Hermana es el inverso de HermanaDe, lo que significa que 

V p, s TieneHermanaip, s) <=> HermanaDe(s, p ) 

Esta sentencia puede ser expresada en una red semântica si el enlace es reifîcado (es de- 
cir, transformado en objetos). Por ejemplo, se podrfa tener el objeto HermanaDe, co- 
nectado con un enlace inverso mediante TieneHermana. Dada la pregunta acerca de quién 
es HermanaDe John, el algoritmo de inferencia puede descubrir que TieneHermana es 
el inverso de HermanaDe y por lo tanto, puede responder a la pregunta siguiendo el en¬ 
lace TieneHermana desde John hasta Mary. Sin la informaciôn inversa, séria necesario 
comprobar cada persona de sexo femenino para ver si esa persona tiene un enlace Her¬ 
manaDe hacia John. Esto es asi debido a que las redes semânticas proporcionan inde- 
xaciôn directa solo para objetos, categorias y los enlaces que salen de ellos. Utilizando 
el vocabulario de la lôgica de primer orden, es como si la base de conocimiento estu- 
viera indexada solo por el primer argumenta de cada predicado. 

El lector puede haberse dado cuenta de un inconveniente obvio de la notaciôn de las 
redes semânticas, en comparaciôn con la lôgica de primer orden: el hecho de que los en¬ 
laces entre burbujas representan solo relaciones binarias. Por ejemplo, la sentencia Vue- 
la(Shankar, NuevaYork , NuevaDelhi, Ayer) no se puede expresar directamente en una red 
semântica. Sin embargo, se puede conseguir el efecto de las relaciones n-arias reifican- 
do la proposiciôn como si fuera un evento ( véase la Secciôn 10.3) perteneciente a una 
categoria de eventos apropiada. La Figura 10.10 muestra la estructura de la red semân¬ 
tica para este evento particular. Nôtese que la restricciôn de las relaciones binarias fuer- 
za a la creaciôn de una ontologia rica de conceptos reificados. De hecho, mucha de la 
ontologia desarrollada en este capitulo se originô en sistemas de redes semânticas. 
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VALORES 
POR DEFECTO 


SOBREESCRITURA 


La reificaciôn de proposiciones hace posible representar cualquier terreno, senten- 
cia atômica con funciôn libre expresada en logica de primer orden, utilizando la nota- 
ciôn de las redes semânticas. Ciertas clases de sentencias universalmente cuantificadas 
se pueden expresar usando enlaces inversos y las fechas con cajas de borde simple o 
doble aplicadas a las categorias, pero esto aün déjà un largo camino plagado de logica 
de primer orden. La negaciôn, disyunciôn, simbolos de funciôn anidados y cuantifica- 
ciôn existencial aün no se pueden representar. Ahora es posible extender la notaciôn 
para hacerla équivalente a la logica de primer orden (como en los grafos existenciales 
de Peirce o las redes semânticas particionadas de Hendrix (1975)), pero haciendo esto 
se pierde una de las principales ventajas de las redes semânticas, como es la simplici- 
dad y la transparencia del proceso de inferencia. Los disenadores pueden construir una 
red grande y seguir teniendo una buena idea sobre qué preguntas serân eficientes, por- 
que (a) es fâcil visualizar los pasos que el procedimento de inferencia seguirâ y (b) en 
algunos casos, el lenguaje de consulta es tan simple que las consultas dificiles no se 
pueden representar. En aquellos casos donde el poder expresivo sea demasiado limita- 
do, algunas redes semânticas proporcionan acoplamiento procedimental para relle- 
nar el vacfo. El acoplamiento procedimental es una técnica por la cual una consulta sobre 
(o a veces una afirmaciôn de) una cierta relaciôn, implica una llamada a un procedi- 
miento especial disenado para esa relaciôn, en lugar de la utilizaciôn del algoritmo de 
inferencia general. 

Uno de los aspectos mâs importantes de las redes semânticas es su habilidad para 
representar valores por defecto para las categorias. Examinando la Figura 10.9 con de- 
tenimiento, uno se da cuenta de que John tiene una pierna en lugar de tener dos, puesto 
que él es una persona y todas las personas tienen dos piernas. En una base de conoci- 
miento estrictamente logica esto séria una contradicciôn, pero en una red semântica la 
afirmaciôn de que todas las personas tienen dos piemas tiene solo el sentido de valor por 
defecto. Es decir, se asume que una persona tiene dos piernas a menos que sea contra- 
dicho por informaciôn mâs especifica. La semântica por defecto se refuerza de forma 
natural por el algoritmo de inferencia, porque utiliza enlaces hacia arriba desde el obje- 
to en si mismo (John en este caso), y para tan pronto como encuentra un valor. Se dice 
que el valor por defecto es sobrescrito por un valor mâs especffico. Nôtese que se po- 
dria haber sobrescrito el valor por defecto para el numéro de piemas a través de la cre- 
aciôn de una categoria de PersonasConUnaPierna, un subconjunto de Personas de la cual 
John es miembro. 

Se puede mantener la semântica logica de modo estricto en la red si se dice que la 
aserciôn Personas posee una excepciôn para John: 

V x x e Personas ax P John => Piernas(x, 2) 

Para una red constante, lo anterior es semânticamente adecuado, pero serâ mucho me¬ 
nos concisa que la notaciôn de la red si existen un montôn de excepciones. Sin embar¬ 
go, esta aproximaciôn falla para una red que serâ actualizada con mâs aserciones 
(realmente se quiere decir que cualquier persona con una sola piema es también una 
excepciôn). La Secciôn 10.7 profundiza en este punto y en el razonamiento por defec¬ 
to general. 
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LÔGICA DESCRIPTIVA 

SUBSUNCIÔN 

CLASIFICACIÔN 


Lôgica descriptiva 

La sintaxis de la lôgica de primer orden esta disenada para hacer mas fâcil el afirmar co¬ 
sas sobre objetos. La lôgica descriptiva se basa en notaciones que estân disenadas para 
hacer mas fâcil describir definiciones y propiedades de categorias. Los sistemas de lô¬ 
gica descriptiva han evolucionado desde las redes semânticas, en respuesta a las presiones 
para formalizar el significado de la red y retener al mismo tiempo, el énfasis en la es- 
tmctura taxonômica como principio organizacional. 

Las principales tareas de inferencia para la lôgica descriptiva son la subsunciôn (com- 
probar si una categoria es un subconjunto de otra a través de la comparaciôn de sus de- 
finiciones) y la clasificaciôn (comprobar si un objeto pertenece a una categoria). Algunos 
sistemas también incluyen consistencia de la definiciôn de una categoria (si el criterio 
de pertenencia puede ser satisfecho lôgicamente). 

El lenguaje Classic (Borgida et al., 1989) es un ejemplo tipico de lôgica descripti¬ 
va. En la Figura 10.11 se muestra la sintaxis de las descripciones de Classic 9 . Por ejem¬ 
plo, para expresar que los solteros son adultos que no estân casados, se escribiria 

Soltero = Y(NoCasado, Adulto, Masculino ) 

El équivalente de lo anterior en lôgica de primer orden séria 

Soltero(x) <=> NoCasado(x ) a Adu\to{x) a Masculino(x) 

Obsérvese que la lôgica descriptiva realmente permite efectuar operaciones lôgicas di- 
rectas en los predicados, en vez de tener que crear primero oraciones que se unen me- 
diante conectores. Toda descripciôn en Classic se puede expresar mediante lôgica de 
primer orden, pero algunas descripciones resultan mâs directas expresadas en Classic. 
Por ejemplo, para describir el conjunto de hombres que por lo menos tengan très hijos, 
estén desempleados y cuya esposa es doctora, y que ademâs tengan como mâximo dos 
hijas, ambas profesoras de Fisica o Matemâticas se escribiria 

Y (Hambre, AlMenos{ 3, Hijos), AlMenos(2, Hijas), 

Todos(Hijos, YiDesempleado, Casado, TodosiEsposa, Doctorj)), 

Todos(Hijas, Y(Profesor, Satisface{Departamento, Fi'sica, Matemâticas)))) 

Se déjà como ejercicio traducir lo anterior a lôgica de primer orden. 

Quizâs el aspecto mâs importante de la lôgica descriptiva sea el énfasis que se pone 
en la maleabilidad de la inferencia. Los problemas se resuelven mediante su descripciôn 
y cuestionando si pueden ser subsumidos mediante una de las varias categorias posibles 
de soluciôn. En los sistemas promedio de lôgica de primer orden, muchas veces es im- 
posible predecir cuâl va a ser el tiempo necesario para hallar la soluciôn. Frecuentemente, 
se déjà al usuario disenar la representaciôn que permita evitar aquellos conjuntos de ora¬ 
ciones, que probablemente sean las causantes de que el sistema emplee varias semanas 
en resolver un problema. El énfasis en la lôgica descriptiva, por otra parte, es el de ga- 


9 Obsérvese que el lenguaje no permite limitarse a afirmar que un concepto o una categorias es subconjunto 
de otro. Lo anterior es deliberativo: la subsunciôn entre categorias debe obtenerse a partir de ciertos aspectos 
de las descripciones de las categorias. De no ser asl, seguramente algo esta faltando en las descripciones. 
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Concepto —» 

Objeto | NombreDelConcepto 

1 

Y(Concepto ,...) 


Todo(NombreRol, Concepto ) 


AlMenos(£«fero, NombreRol) 


Casi (Entero, NombreRol) 


Cumpl ^{NombreRol, Nombrelndividual ,...) 


IgualQue(7?Mta, Ruta) 

1 

\JnoDe(NombreIndividual ,...) 

Ruta —* 

[NombreDelRol ,...] 

Figura 10.11 La sintaxis de descripciones en un subconjunto del lenguaje Classic. 


rantizar que la prueba de subsuncion pueda ser resuelta en un tiempo que sea una fun- 
ciôn polinômica del tamano de la descripciôn del problema 10 . 

En principio, lo anterior pareceria maravilloso hasta que uno se da cuenta que en- 
trana dos consecuencias: los problemas difîciles no se pueden formular, o jrequieren de 
descripciones de vastas extensiones exponenciales! A pesar de lo anterior, la docilidad 
de los resultados obtenidos arrojan luz sobre qué tipos de estructuras causan proble¬ 
mas, y esto ayuda al usuario a comprender el comportamiento de las diversas represen- 
taciones. 

Por ejemplo, la lôgica descriptiva por lo general carece de négation y disyunciôn. 
Ambas fuerzan a los sistemas lôgicos de primer orden a producir anâlisis de caso de tipo 
exponencial, si es que se desea garantizar la completitud. Por la misma razôn se les ha 
excluido de Prolog. Classic acepta solo una variante limitada de la disyunciôn, las es¬ 
tructuras SatisfaceQue y UnaDe, que permiten aplicar la disyunciôn en individuos espe- 
cificamente designados, pero no en las descripciones. En el caso de las descripciones 
disyuntivas, las definiciones anidadas dan lugar fâcilmente a una cantidad exponencial 
de rutas altemativas, en las que una categorfa puede subsumir a otra. 


10.7 Razonamiento con informacion por defecto 


En la secciôn precedente, se ha visto un ejemplo simple de una aserciôn con un valor 
por defecto: las personas tienen dos piemas. Este valor por defecto puede ser sobrescri- 
to con informacion mas especifica, como que Long John Silver tiene una pierna. Se ha 
visto que el mecanismo de herencia en las redes semânticas implémenta la sobrescritu- 
ra de valores por defecto de forma simple y natural. En esta secciôn, se estudiarân los 
valores por defecto de forma mas general, con la vista puesta hacia la comprensiôn de 
la semântica de los valores por defecto, en vez de proporcionar tan solo un mecanismo 
procedimental. 


10 Classic proporciona una prueba de subsuncion eficiente en la prâctica, pero el peor caso de ejecucion es 
exponencial. 
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ASUNCIÔN DEL 
MUNDO CERRADO 


COMPLETITUD 


FORMA NORMAL 
DE CLARK 


Mundos abiertos y cerrados 

Suponga que estaba mirando en un tablôn de noticias en el Departamento de Informâ- 
tica de una Universidad y vio una nota que decia, «Se ofrecerân los siguientes cursos: 
CS 101, CS 102, CS 106, EE 101». qCuântos cursos se ofrecerân?, si su respuesta es 
«cuatro», estarâ en consonancia con un sistema de base de datos tipico. Dada una base 
de datos relacional con el équivalente de las cuatro aserciones 

CursoiCS, 101), Curso(CS, 102), CursoiCS, 106), Curso(EE, 101), (10.2) 

La consulta SQL count * from Curso devuelve 4. Por otro lado, un sistema ba- 
sado en lôgica de primer orden responderia «algo entre uno e infinito», no «cuatro». 
La razôn es que las aserciones Curso no niegan la posibilidad de que se impartan otros 
cursos no mencionados, ni que los cursos que se mencionan sean diferentes los unos 
de los otros. 

Este ejemplo muestra que los sistemas de bases de datos y las convenciones de los 
humanos para la comunicaciôn, difieren de la lôgica de primer orden en al menos dos pun- 
tos. En primer lugar, las bases de datos (y la gente) asume que la informaciôn propor- 
cionada es compléta, por lo que las sentencias atômicas para las que no se dispone de una 
aserciôn que diga que son ciertas, se consideran falsas. Esto es lo que se conoce con el 
nombre de asunciôn del mundo cerrado, o CWA ( Closed-World Assumption). En se- 
gundo lugar, normalmente se asume que nombres distintos hacen referencia a objetos dis- 
tintos. Esto se conoce con el nombre de asunciôn de nombres ûnicos, o UNA (Unique 
Names Assumption), introducido primera en el contexto de nombres de acciones en la Sec- 
ciôn 10.3. 

La lôgica de primer orden no asume estas convenciones, y por lo tanto, necesita ser 
mas explicita. 

Para decir que solo se ofertan los cuatros cursos distintos, se podria escribir: 

Curso{d, n ) o [d, n] = [CS, 101] v [d, n] = [CS, 102] 

v [d, n ] = [CS, 106] v [d, n ] = [EE, 101] (10.3) 

La Ecuaciôn (10.3) se llama de completitud 11 de 10.2. En general, la completitud 
contendrâ una definiciôn (una sentencia si y solo si) para cada predicado, y cada defi- 
niciôn contendrâ una disyunciôn por cada clâusula definida, teniendo el predicado a la 
cabeza 12 . En general, la completitud se construye como sigue: 

1. Unir todas las clâusulas con el mismo nombre de predicado (P) y la misma car- 
dinalidad (/?). 

2. Transformar cada clâusula en forma normal de Clark: reemplazar 

P(t l ..., t n ) <— Cuerpo 

donde son términos, con 

P(Vi vJ 3 Wj ... w m [v, ..., vJ = [?, ..., t „] a Cuerpo 


11 Algunas veces llamada «Completidud de Clark» debido a su creador, Keith Clark. 

12 Notese que esta es también la forma de los axiomas estado-sucesor vistos en la Secciôn 10.3. 
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donde v, son variables inventadas recientemente y w, son las variables que apa- 
recen en la clâusula original. Usar el mismo conjunto de v ; para cada clâusula. 
Esto proporciona el siguiente conjunto de clâusulas 

P(v 
P(v 

3. Combinar todo esto junto a una clâusula disyuntiva: 

P(v } ..., v„) *—B x v ...vB k 

4. Formar la completitud reemplazando el con la equivalencia: 

P(y x ..., v„) <=> B 1 v ...vB k 

La Figura 10.12 muestra un ejemplo de la completitud de Clark para una base de cono- 
cimiento con hechos y réglas. Para anadir la asunciôn de nombres ünicos, simplemente 
se construye la completitud de Clark para la relation de igualdad, donde solo se cono- 
cen los hechos CS = CS, 101 = 101, etc. Esto se déjà como un ejercicio. 

La asunciôn del mundo cerrado nos permite encontrar un modelo mmimo de una 
relacion. Es decir, se puede encontrar el modelo de la relacion Curso con los menores 
elementos. En la Ecuaciôn (10.2) el modelo minimo de Curso tiene cuatro elementos. 
Alguno menos y existiria una contradicciôn. Para las bases de conocimiento de Horn, 
siempre hay un modelo minimo ûnico. Nôtese que la asunciôn de nombres ünicos tam- 
bién se aplica a la relacion de igualdad: cada término es igual solo a él mismo. Paradô- 
jicamente, esto significa que los modelos minimos son mâximos en el sentido de tener 
tantos objetos como sea posible. 


•••> v „) *~B k 


Clâusulas de Horn 

Completitud de Clark 

CursoiCS, 101) 

Curso(d, n) <=> [d, ri\ = [CS, 101] 

Curso (CS, 102) 

v [d, n] = [CS, 102] 

Curso(CS, 106) 

v [d, n\ = [CS, 106] 

Curso(EE, 101) 

v [d, n\ = [EE, 101] 

Curso(EE, i) *— Entero(i ) 

v 3 i [d, n] = [EE, i ] a Entero(i) 

a 101 < i a i — 130 

a 101 < i a i < 130 

Curso(CS, m + 100) <= 

v 3 m [d, n] = [CS, m+ 100] 

Curso(CS, m ) a 100 ^ m 

a Curso(CS, m) a 100 ^ m 

a m < 20 

a m < 200 

Figura 10.12 La Completitud de Clark 

usa un conjunto de clâusulas de Horn. El programa ori- 

ginal de Horn (izquierda), lista explicitamente cuatro cursos y también afirma que hay clase de ma- 
temâticas para cada entero desde 101 hasta 130, y que por cada clase CS en la sérié 100 (no 
titulados) hay una clase correspondiente en la sérié 200 (titulados). La completitud de Clark (de- 
recha) establece que no hay otras clases. Con la completitud y la asunciôn de nombres ünicos (asi 
como la definiciôn obvia del predicado Entero), se consigue la conclusion deseada de la existen- 
cia de exactamente 36 cursos: 30 de matemâticas y seis de tipo CS. 
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Es posible coger un programa de Horn, generar la completitud de Clark y pasar el 
resultado obtenido a un demostrador de teoremas para realizar inferencia. Pero a menudo 
es mas eficiente utilizar un mecanismo de inferencia de propôsito especifico como es 
Prolog, que tiene implementado en el mecanismo de inferencia las asunciones del mun- 
do cerrado y nombres ünicos. 

Aquellos sistemas que implementan la asuncion del mundo cerrado deben ser cui- 
dadosos sobre el tipo de razonamiento que llevarân a cabo. Por ejemplo, en una base de 
datos del censo, séria razonable asumir la asuncion del mundo cerrado cuando se razo- 
ne sobre la poblaciôn actual de las ciudades, pero séria errôneo deducir que ningün nino 
naceria en el future porque la base de datos no contenga entradas con futures nacimientos. 
La asuncion del mundo cerrado hace que la base de datos sea compléta, en el sentido 
de que cualquier consulta atômica se responde positiva o negativamente. Cuando se es 
genuinamente ignorante acerca de los hechos (como futuros nacimientos), no se puede 
usar la asuncion del mundo cerrado. Un sistema de representaciôn del conocimiento mas 
sofisticado podrfa permitir al usuario especificar réglas para decidir cuando aplicar la 
asuncion del mundo cerrado. 

Negaciôn como fallo y semânticas de modelado estables 

Se ha visto en los Capitulos 7 y 9 que las bases de conocimiento en forma de Horn tienen 
propiedades computacionalmente deseables. En muchas aplicaciones, sin embargo, el re- 
quisito de que cada literal en el cuerpo de una clâusula debe ser positivo es un inconveniente 
grande. Se podria querer a fir mar «Tu puedes salir si no esta lloviendo», sin tener que cre- 
ar predicados como NoLloviendo. En esta secciôn, se verâ una forma de anadir una nega¬ 
ciôn explicita a las clâusulas de Horn usando la idea de negaciôn como fallo. La idea es 

que un literal negativo, no P, puede ser «demostrado» cierto, en el caso de que la pmeba 
de P falle. Esta es una forma de razonamiento por defecto relacionada mtimamente con la 
asuncion del mundo cerrado: se asumirâ que algo es falso si no puede ser demostrado que 
sea cierto. Se usarâ «no» para distinguir la negaciôn como fallo del operador lôgico «-<». 

Prolog permite el operador no en el cuerpo de una clâusula. Por ejemplo, considé- 
rese el siguiente programa escrito en Prolog: 

dispositivoIDE <— Dispositivo a no dispositivoSCSI 
dispositivoSCSI Dispositivo a no dispositivoIDE 
controladorSCSI <— dispositivoSCSI (10.4) 

Dispositivo 

La primera régla dice si se dispone de un disco duro en un computador y no es SCSI, en¬ 
fonces debe ser IDE. La segunda establece que si no es IDE debe ser SCSI. La tercera es- 
tablece que tener una unidad SCSI implica tener un controlador SCSI y la cuarta afirma 
que efectivamente se dispone de una unidad. Este programa tiene dos modelos mmimos: 

Mj = [Dispositivo, dispositivoIDE) 

M 2 = [Dispositivo, dispositivoSCSI, controladorSCSI) 

Los modelos mmimos no pueden capturar la semântica especifica de programas que em- 
plean negaciôn como fallo. Considérese el programa 

P no Q 


(10.5) 
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Tiene dos modelos mmimos, { P ) y { Q (. Desde el punto de vista de la logica de primer 
orden esto tiene sentido, puesto que P <= -i Q es équivalente aP v Q. Pero desde el pun¬ 
to de vista de Prolog es inquiétante: Q nunca aparece en la parte izquierda de una flé¬ 
cha, por lo que ^cômo puede ser un consecuente? 

Una alternativa es la idea de modelo estable, que es un modelo mmimo donde cada 
âtomo en el modelo tiene una justificaciôn: una régla en la cual la cabeza es el âtomo 
y cada literal en el cuerpo se satisface. Técnicamente, se dice que M es un modelo es¬ 
table de un programa //, si M es el ünico modelo ünico del reducto de H con respecto 
a M. El reducto de un programa PI se obtiene borrando de H cualquier régla que tenga 
un literal no A en el cuerpo, donde A esta en el modelo, y posteriormente borrando cual¬ 
quier literal negativo en las restantes réglas. Puesto que el reducto de H es ahora una lis¬ 
ta de clâusulas de Horn, debe tener un ünico modelo mmimo. 

El reducto de P no Q con respecto a {P} es P, que tiene como modelo mmimo 
{P |. Por lo tanto {P } es un modelo estable. El reducto con respecto a { Q } es el programa 
vacio, que tiene como modelo mmimo { }. Por lo tanto { Q } no es un modelo estable por- 
que Q no tiene justificaciôn en la Ecuaciôn (10.5). Como otro ejemplo, el reducto de (10.4) 
con respecto a M l es como sigue: 

dispositivoIDE <— Dispositivo 

controladorSCSI dispositivoSCSI 

Dispositivo 

Tiene como modelo mmimo M v por lo tanto M x es un modelo estable. La programaciôn 
de conjunto de respuestas es una clase de logica de programaciôn que incorpora nega- 
ciôn como fallo y funciona transformando la logica del programa en forma base, para bus- 
car modelos estables (también conocidos como conjunto de respuestas) a través del uso 
de técnicas de prueba de modelos proposicionales. Por lo tanto, la programaciôn de con¬ 
junto de respuestas es un descendente del Prolog y los demostradores râpidos de satis- 
facciôn proposicional como WalkSAT. De hecho, la programaciôn de conjunto de 
respuestas ha sido aplicada con éxito a problemas de planificaciôn, de igual forma que 
los demostradores râpidos de satisfacciôn proposicional. La ventaja de la planificaciôn 
de conjunto de respuestas sobre otros planificadores es el nivel de flexibilidad: los ope- 
radores de planificaciôn y las restricciones se pueden expresar como programas lôgicos, 
y no estân restringidos a un formato especffico de un formalismo planificador particular. 
La desventaja es la misma que para otras técnicas proposicionales: si hay muchos obje- 
tos en el universo, entonces puede tener lugar una ralentizaciôn exponencial. 

Circunscripciôn y logica por defecto 

Se han visto dos ejemplos donde, de forma aparente, el proceso natural de razonamien- 
to violaba la propiedad monotônica de la logica, que fue demostrada en el Capitulo 7 13 . 
En el primer ejemplo, una propiedad heredada por todos los miembros de una catego- 


13 Recuérdese que la monotoma requiere que en todas las sentencias de implication se mantenga la implica¬ 
tion después de que se anadan nuevas sentencias a la base de conocimiento (KB). Es decir, si KB j= a enton¬ 
ces KB a P (= a. 
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ria en una red semântica, podia ser sobrescrita por informaciôn especffica de una sub- 
categoria. En el segundo ejemplo, los literales negados que derivan de la asunciôn del 
mundo cerrado podrfan se sobrescritos por la adiciôn de literales positivos. 

La introspecciôn simple sugiere que esos fallos de la propiedad monotonica son ge- 
neralizados en el razonamiento basado en el sentido comün. Parece que los humanos a 
menudo «llegan a conclusiones». Por ejemplo, cuando uno ve un coche aparcado en la 
calle, uno tiende normalmente a creer que el coche tiene cuatro ruedas aunque solo sean 
visibles très (si usted créé que la existencia de la cuarta rueda es dudosa, considéré tam- 
bién la cuestiôn de si las très ruedas visibles son reales o simplemente unas maquetas). 
Ahora, la teoria de la probabilidad puede proporcionar una conclusion de que la cuarta 
rueda existe con una alta probabilidad, incluso, para la mayoria de la gente, la posibili- 
dad de que el coche no tenga la cuarta rueda no surge a menos que se présente alguna 
nueva evidencia. Por lo tanto, parece que la conclusion de la cuarta rueda se alcanza por 
defecto, en ausencia de otra razôn que lo ponga en duda. Si se detectan nuevas eviden- 
cias (por ejemplo, si uno ve al propietario del coche llevando una rueda y se da cuenta 
de que el coche tiene un gato), entonces la conclusion puede ser negada. Esta clase de 
razonamiento se dice que es no monotônico, porque el conjunto de creencias no crece 
monotônicamente con el tiempo cuando se dispone de nuevo conocimiento. La lôgica 
no monotonica ha sido concebida con nociones modificadas de verdad e implicaciôn 
para capturar este comportamiento. Se examinarân estos dos tipos de lôgica que han sido 
estudiados de forma extensiva: circunscripciôn y lôgica por defecto. 

La circunscripciôn puede ser vista como una version mas potente y précisa de la 
asunciôn del mundo cerrado. La idea es especificar predicados particulares que son asu- 
midos como «tan falsos como posibles» (es decir, falso para todo objeto excepto para 
aquellos para los cuales se conoce que es cierto). Por ejemplo, supôngase que se quie- 
re expresar la régla por defecto de que los pâjaros vuelan. Se podria introducir un pre- 
dicado, por ejemplo Anormal ^x), y escribir 

Pâjaro(x) a -t Anormal ^x) => Vuela{x) 

Si se especifica que Anormal x va a ser circunscrito, un razonador que utiliza circunscrip¬ 
ciôn asumirâ i Anormal X (x) a menos que sea conocida la certeza de Anormal^x). Esto pro- 
porciona que la conclusion Vuela(Tweety) se pueda alcanzar a partir de la premisa 
Pâjaro(Tweety), pero la conclusion no se mantendrâ si se afrrma que Anormal x (Tweetÿ). 

La circunscripciôn puede ser vista como un ejemplo de lôgica de preferencia de mo- 
delos. En este tipo de lôgica, una sentencia se deduce (con valor por defecto) si es cierta 
en todos los modelos preferidos de la base de conocimiento, en contraposiciôn a los re- 
querimientos de verdad en todos los modelos de la lôgica clâsica. Por circunscripciôn, un 
modelo se prefiere a otro si tiene menos objetos anormales 14 . Veamos como trabaja esta 
idea en el contexto de la herencia mültiple en las redes semânticas. El ejemplo estândar 
para el cual la herencia mültiple généra problemas se llama «El diamante de Nixon». 


14 En la asunciôn del mundo cerrado, se prefiere un modelo a otro si tiene menos âtomos ciertos (es decir, se 
prefîeren modelos que son mmirnos). Existe una conexiôn natural entre la asunciôn del mundo cerrado y las 
clâusulas definidas de las bases de conocimiento, porque el punto fijo alcanzado mediante razonamiento ha- 
cia delante en estas bases de conocimiento es el modelo minimo ünico {yéase Apartado 7.5). 
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Surge de la observation de que Richard Nixon es un cuâquero (y por lo tanto pacifista) 
y un republicano (y por lo tanto no pacifista). Se podria escribir esto como sigue: 

Republicano{Nixon) a Cuâquero{Nixori) 

Republicanoix ) a -i Anormal 2 {x ) => ->Pacifista(x) 

Cuâquero{x ) a -'Anormal ^(x) => PacifistaÇx) 

Si se circunscriben Anormal 2 y Anormal 3 , no existen modelos preferidos: uno en el que 
se cumpla Anormal 2 {Nixon) y Pacifista(Nixori) se considéra vâlido, y otro en el que se 
cumpla Anormal^(Nixon) y -> Pacifista{Nixon ) también se considéra vâlido. Por lo tan¬ 
to, el razonador basado en circunscripciôn permanece agnôstico a la idea de que Nixon 
es pacifista. Si se desea ademâs afirmar que las creencias religiosas tienen precedencia 
sobre creencias politicas, se podria usar un formalismo denominado circunscripciôn 
priorizada para dar preferencia a modelos donde Anormal 3 es minimizado. 

La lôgica por defecto es un formalismo en el cual las réglas por defecto se pueden 
escribir para generar conclusiones contingentes no monotônicas. Una régla por defecto 
se parece a la siguiente: 

Pâjaro(x) : Vuela(x) / Vuela(x ) 

Esta régla significa que si Pâjaro{x) es cierto y si Vuela{x) es consistente con la base de 
conocimiento, enfonces se puede concluir Vuela(x ) por defecto. En general, una régla 
por defecto tiene la forma 

P • J\ J n /C 

donde P es un prerrequisito, C es la conclusion, yj j son las justificaciones (si cualquie- 
ra de ellas se puede probar como falsa, entonces la conclusion no se puede alcanzar). 
Cualquier variable que aparece en J : o C también debe aparecer en P. El ejemplo del dia- 
mante de Nixon puede ser representado utilizando lôgica por defecto con un hecho y dos 
réglas por defecto: 

RepublicanoiNixon) a Cuâquero(Nixon) 

Republicano(x) : ^Pacifista(x) / -Pacifista{x) 

Cuâqueroix) : Pacifista{x) / Pacifista{x) 

Para interpretar cual es el significado de las réglas por defecto, se définira la nociôn de 
una extension o una teoria por defecto como el conjunto mâximo de consecuentes de la 
teoria. Es decir, una extension S consta de los hechos originales conocidos y un conjunto 
de conclusiones a partir de las réglas por defecto, de tal modo que no se pueden alcan¬ 
zar conclusiones adicionales desde S y las justificaciones de cada conclusion por defecto 
en S son consistentes con S. Como en el caso de los modelos preferidos en la circuns¬ 
cripciôn, se tienen dos posibles extensiones para el diamante de Nixon: uno en el que él 
es un pacifista y otro en el que no lo es. Existen esquemas priorizados en los que a al- 
gunas réglas por defecto se les puede dar precedencia sobre otras, permitiendo resolver 
algunas ambigüedades. 

Desde 1980, cuando se propuso por primera vez la lôgica no monotônica, se han he¬ 
cho muchos progresos para entender sus propiedades matemâticas. Comenzando en los 
ültimos anos de la década de los 90, los sistemas prâcticos basados en programaciôn 16- 
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gica han demostrado ser prometedores como herramientas para la representaciôn del co- 
nocimiento. Sin embargo, aün hay cuestiones por resolver. Por ejemplo, si «los coches 
tienen cuatro ruedas» es falso, /t|ué significa el que lo tengamos en nuestra base de co- 
nocimiento? /Cuâl es el conjunto apropiado de réglas por defecto que debemos tener? 
Si no se puede decidir, para cada régla por separado, si debe pertenecer a la base de co- 
nocimiento, entonces existe un problema serio de no modularidad. Por ültimo, ^cômo 
se pueden usar las creencias que tienen un valor por defecto para tomar decisiones? Pro- 
bablemente esta sea la cuestiôn mas dificil de resolver para el razonamiento por defec¬ 
to. Las decisiones a menudo implican cambios, y por lo tanto, se necesita comparar la 
fuerza en la creencia de la salida de varias acciones. En aquellos casos donde se toma 
repetidamente la misma clase de decisiones, es posible interpretar las réglas por defec¬ 
to como afirmaciones que establecen un «umbral de probabilidad». Por ejemplo, la ré¬ 
gla por defecto «mis frenos estân siempre correctos» realmente significa «La probabilidad 
de que mis frenos estén correctos, en ausencia de otra informacion, es suficientemente 
alta para que la decision ôptima sea conducir sin revisarlos». Cuando el contexto para 
la toma de decisiones cambia (por ejemplo, cuando uno conduce un camion pesado muy 
cargado por una carretera de montana empinada), el valor por defecto de repente no es 
el apropiado, incluso cuando no haya evidencia que sugiera que los frenos estén mal. 
Estas consideraciones han llevado a algunos investigadores a considerar como encap- 
sular el razonamiento por defecto en la teoria de la probabilidad. 


10.8 Sistemas de mantenimiento de verdad 


REVISION DE 
LA CREENCIA 
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La seccion anterior argumentaba que la mayoria de las inferencias logradas por un sis- 
tema de representaciôn del conocimiento tendrân solo valores por defecto, en vez de ser 
absolutamente ciertas. Inevitablemente, algunos de los hechos inferidos serân errôneos 
y tendrân que ser retractados debido a la apariciôn de nueva informacion. Este proceso 
de llama révision de la creencia 15 . Supôngase que una base de conocimiento KB con- 
tiene una sentencia P (puede ser una conclusion por defecto generada por un algoritmo 
de razonamiento hacia delante, o simplemente una afirmaciôn incorrecta) y que se de- 
sea ejecutar Decir{KB, -t P). Para evitar el crear una contradicciôn, primero se ejecutarâ 
Retractar(KB, P). Esto parece sencillo, sin embargo, el problema surge si alguna sen¬ 
tencia adicional fue inferida utilizando P y afirmada en la base de conocimiento. Por 
ejemplo, la implicaciôn P => Q podria haber sido utilizada para anadir Q. La soluciôn 
«obvia» (retractar todas las sentencias que se infirieron utilizando P) falla, porque esas 
sentencias podrian tener otras justificaciones a demâs de P. Por ejemplo, si también es¬ 
tân en la base de conocimiento R y R => Q, entonces Q no debe ser borrado. Los siste¬ 
mas de mantenimiento de verdad, o SMV, estân disenados para manejar justamente 
este tipo de complicaciones. 


15 La révision de la creencia se compara a menudo con la actualizaciôn de la creencia, que ocurre cuando 
se révisa una base de conocimiento para reflejar un cambio en el mundo, en lugar de trabajar con nueva in¬ 
formacion de un mundo fijo. La actualizaciôn de la creencia combina révision de la creencia con razonamiento 
sobre el tiempo y el cambio. También esta relacionada con el proceso de filtrado descrito en el Capîtulo 15. 






410 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


SM VJ 

JUSTIFICACIÔN 


SMVS 


Una aproximaciôn muy simple al mantenimiento de verdad es mantener la pista del 
orden en el que las sentencias se introducen en la base de conocimiento numerândolas des- 
de P l hasta P n . Cuando se realiza una llamada a Retractar{KB, P), el sistema involuciona 
hasta el estado anterior en el que P ; fue anadido, eliminando de ese modo P l y cualquier 
inferencia que fuera derivada de P. Las sentencias P j + , hasta P n pueden ser anadidas de 
nuevo. Esto es simple y garantiza que la base de conocimiento sera consistente, pero el 
hecho de retractar P ( . requiere retractar y afirmar n — i sentencias, asi como deshacer y 
rehacer todas la inferencias alcanzadas utilizando esas sentencias. En los sistemas donde 
se anaden mucho hechos (como bases de batos comerciales) esto es impracticable. 

Una aproximaciôn mas eficiente son los sistemas de mantenimiento de verdad basa- 
dos en justificaciôn, o SMVJ. En un SMVJ, cada sentencia en la base de conocimiento se 
anota con una justificaciôn, que consiste en el conjunto de sentencias a partir de las cua- 
les fue inferida. Por ejemplo, si la base de conocimiento actualmente contiene P => Q, en¬ 
fonces Decir(P) causarâ que se anada Q con la justificaciôn { P, P => Q }. En general, una 
sentencia puede tener cualquier numéro de justificaciones. Las justificaciones se utilizan 
para que la operaciôn de retractar sea eficiente. Dada la invocaciôn Retractar(P), el SMVJ 
detectarâ exactamente aquellas sentencias que tienen P como una justificaciôn. Por lo tan- 
to, si una sentencia Q tiene como ünica justificaciôn {P, P => Q }, sera borrada. Si ademâs 
también tuviera la justificaciôn {P, P v R => Q }, también séria borrada, pero si tuviera la 
justificaciôn {R, P v R => Q), entonces no séria borrada. De esta forma, el tiempo nece- 
sario para retractar P dépende solo del numéro de sentencias derivadas de P, en lugar de 
depender del nümero de sentencias anadidas desde que se insertô P en la base de conoci¬ 
miento. 

Los SMVJ asumen que las sentencias que han sido consideradas una vez, serân con- 
sideradas de nuevo, por lo tanto en lugar de borrar una sentencia de la base de conoci¬ 
miento cuando pierde todas sus justificaciones, simplemente se marcarân las sentencias 
como si estuvieran/wera de la base de conocimiento. Si una afirmaciôn posterior resti- 
tuye una de las justificaciones, entonces la sentencia se marca de nuevo como dentro. 
De esta forma, los SMVJ mantienen toda la cadena de inferencia que utilizan y no vuel- 
ven a inferir sentencias cuando una justificaciôn vuelve a ser valida. 

Ademâs de manejar el proceso de retractar informaciôn incorrecta, los SMV se pue¬ 
den utilizar para acelerar el anâlisis de mültiples situaciones hipotéticas. Supôngase, por 
ejemplo, que el Comité Olimpico Romano esta seleccionando lugares para nataciôn, com- 
peticiones atléticas y eventos ecuestres para los Juegos Olimpicos que se celebrarân en 
Roma en el ano 2048. Por ejemplo, sea la primera hipôtesis Lugar(Nataciôn, Pitesti), 
Lugar(CompeticionesAtléticas, Bucarest ) y Lugar(EventosEcuestres, Arad). Se debe 
realizar una gran cantidad de razonamiento para obtener las consecuencias logisticas y 
por lo tanto la bondad de esta selecciôn. Si en su lugar se desea considerar Lugar(Com- 
peticionesAtléticas, Sibiu ), el SMV no tiene que empezar otra vez desde cero. En su lu¬ 
gar, simplemente se retractarâ Lugar(CompeticionesAtléticas , Bucarest) y se afirmarâ 
Lugar(CompeticionesAtléticas, Sibiu ) y el SMV llevarâ a cabo las revisiones necesarias. 
La cadena de inferencia generada por la opciôn de Bucarest se puede reutilizar con Si¬ 
biu, dado que la conclusion es la misma. 

Un sistema de mantenimiento de verdad basado en suposiciones, o SMVS esta di- 
senado para realizar este tipo de cambios de contexto entre mundos hipotéticos de un 
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modo muy eficiente. En un SMVJ, el mantenimiento de las justificaciones permite mo- 
verse râpidamente de un estado a otro, realizando pocas retracciones y afirmaciones, pero 
en un momento dado solo se puede representar un estado. Un SMVS représenta todos 
los estados que han sido considerados al mismo tiempo. Mientras que un SMVJ sim- 
plemente étiqueta cada sentencia como dentro ofuera, el SMVS lleva el control, por cada 
sentencia, de qué suposiciones harân que la sentencia sea verdadera. Es decir, cada sen¬ 
tencia tiene una étiqueta que esta formada por un conjunto de suposiciones. La sentencia 
se cumple solo en aquellos casos en los que todas las suposiciones de uno de los con- 
juntos de suposicion se cumple. 

Los sistemas de mantenimiento de verdad también proporcionan un mecanismo para 
explicaciones generar explicaciones. Técnicamente, una explicaciôn de una sentencia P es un conjun¬ 

to de sentencias E de modo que E implica P. Si se conoce que las sentencias en E son 
ciertas, enfonces E simplemente proporciona una base suficiente para probar que P debe 
suposiciones ser el caso. Pero las explicaciones también incluyen suposiciones (sentencias que no se 

sabe si son ciertas, pero en el caso de serlo serfan suficientes para probar P). Por ejem- 
plo, uno puede no tener suficiente information para probar que su coche no arrancarâ, 
pero una explicaciôn razonable podrfa incluir la suposicion de que la bateria esta agota- 
da. Esto, combinado con el conocimiento de como funciona un coche, explica el hecho 
de que no arranque. En la mayoria de los casos, se prefiere una explicaciôn E que es mi- 
nima, con el significado de que no existe un subconjunto propio de E que sea también 
una explicaciôn. Un SMVS puede generar explicaciones para el problema de que «el co¬ 
che no arranca» a través de la realizaciôn de suposiciones (como «combustible en el co¬ 
che» o «bateria agotada») en el orden que se desee, incluso si algunas suposiciones son 
contradictorias. A continuaciôn se compmeba la étiqueta de la sentencia «el coche no arran¬ 
ca», para verificar el conjunto de suposiciones que justificarian la sentencia. 

Los algoritmos empleados en la implantaciôn de los sistemas de mantenimiento de 
verdad son un poco complicados y no se comentarân aqui. La complejidad computacional 
del problema de mantenimiento de verdad es por lo menos tan grande como la de la in- 
ferencia proposicional, es decir, de dificultad NP. Por ello, no es de esperar que el man¬ 
tenimiento de verdad sea una panacea. Sin embargo, cuando se utiliza con cuidado un 
SMV puede proporcionar un incremento sustancial en la habilidad de un sistema lôgi- 
co para manejar entornos complejos e hipôtesis. 


10.9 Resumen 


Este capitulo ha sido con diferencia el mas detallado del libro. Ahondando en los deta- 
lles de como uno représenta una gran variedad de conocimiento, se espera haber dado 
al lector una idea de como se construyen las bases de conocimiento reales. Los puntos 
mas importantes son los siguientes: 

• La representaciôn de conocimiento a gran escala necesita una ontologia de pro- 
pôsito general para organizar y unir varios dominios de conocimiento especificos. 

• Una ontologia de propôsito general necesita abarcar una amplia gama de conoci¬ 
miento y deberia ser capaz, en principio, de manejar cualquier dominio. 
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• Se ha presentado una ontologia superior basada en categorias y en el câlculo de 
eventos. Se ha cubierto la estructura de objetos, espacio y tiempo, cambio, proce- 
sos, sustancias y creencias. 

• Las acciones, los eventos y el tiempo se pueden representar utilizando el câlculo 
de situaciones o una representacion mas expresiva como el câlculo de eventos y 
el câlculo de flujos. Estas representaciones capacitan a un agente para construir 
planes mediante inferencia lôgica. 

• Los estados mentales de los agentes se pueden representar mediante cadenas que 
denoten creencias. 

• Se ha presentado un anâlisis detallado del dominio de compra a través de Inter¬ 
net, ejercitando la ontologia general y mostrando como el conocimiento del do¬ 
mino se puede utilizar en un agente de compra. 

• Los sistemas de representacion de propôsito especifico, como las redes semânti- 
cas y la lôgica descriptiva, han sido concebidos para ayudar en la organizaciôn 
jerârquica de categorias. La herencia es una forma importante de inferencia, per- 
mitiendo deducir las propiedades de los objetos a partir de su pertenencia a cate¬ 
gorias. 

• La asunciôn del mundo cerrado, implementada en programa lôgicos, proporciona 
una forma simple de evitar el tener que especificar montones de informacion ne- 
gativa. Es mejor su representacion como informacion por defecto que puede ser 
sobrescrita por informacion adicional. 

• La lôgica no monotônica, como la circunscripciôn y la lôgica por defecto, se 

utiliza para capturai - el razonamiento por defecto en general. La programaciôn de 
conjunto de respuestas acelera la inferencia no monotônica, asi como WalkSAT 
acelera la inferencia proposicional. 

• Los sistemas de mantenimiento de verdad manejan las actualizaciones y revi- 
siones del conocimiento de forma eficiente. 



Notas bibliogrâficas e histôricas 

Existen afirmaciones plausibles (Briggs, 1985) en el sentido de que la investigaciôn 
formai sobre la representacion del conocimiento se iniciô en la India con los trabajos 
teôricos sobre la gramâtica del sânscrito shâstrico, que datan del primer milenio a.C. 
En Occidente, el primer ejemplo lo constituyô el empleo de las definiciones de términos 
de la antigua matemâtica griega. De hecho, el desarrollo de terminologia técnica en 
cualquier campo puede ser entendido como una forma de representacion del conoci¬ 
miento. 

Los debates iniciales acerca de la representacion en IA se enfocaban hacia la «re- 
presentaciôn del problema » en lugar de la «representacion del conocimiento» ( véase , por 
ejemplo, La discusiôn de Amarel (1968) acerca del problema de los canfbales y los mi- 
sioneros). En los anos 70, la IA hizo énfasis en el desarrollo de «sistemas expertos» (tam- 
bién llamados «sistemas basados en conocimiento») que podian, dado un conocimiento 
apropiado del dominio, alcanzar o superar el rendimiento de expertos humanos en tareas 
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especificas. Por ejemplo, el primer sistema experto, Dendral (Feigenbaum et al., 1971; 
Lindsay et al., 1980), interprété la salida de un espectômetro de masas (un instrumenta 
usado para analizar la estmctura de compuestos quimicos orgânicos) de forma mas pré¬ 
cisa que un experto quimico. Si bien el éxito obtenido por Dendral jugé un papel de- 
cisivo para que la comunidad de investigadores en IA tomara conciencia de la importancia 
que revestia la representacion del conocimiento, los formalismos de representacion uti- 
lizados en Dendral son muy especificos para el dominio de la quimica. Durante tiem- 
po, los investigadores se interesaron en formalismos para la representacion estandarizada 
del conocimiento y en ontologias que pudieran hacer mas eficiente el proceso de cre- 
ar nuevos sistemas expertos. Fue as! como se aventuraron en un territorio que ante- 
riormente habia sido explorado por los filôsofos de la ciencia y del lenguaje. La 
disciplina impuesta en IA por la necesidad de probar que las propias teorias «funcio- 
nan», ha dado como resultado un progreso mas râpido y solido que cuando estas pro- 
blemas eran dominio exclusivo de la Filosofia (si bien en ocasiones ha dado lugar a la 
reinvencion de la rueda). 

La creacion de taxonomias entendibles o clasificaciones data de tiempos muy anti- 
guos. Aristateles (384-322 a.C.) hizo un fuerte énfasis en la clasificacion y en esquemas 
de categorizacion. Su Organon, unacoleccion de trabajos sobre lôgicarecapitulados por 
sus estudiantes después de su muerte, incluye un tratado titulado Categorias, en el cual 
intenté construir lo que nosotros hoy denominamos ontologia superior. El también in- 
trodujo la nociôn de géneros y especies para una clasificacion de bajo nivel, aunque no 
con el significado moderno especifico de biologla. El sistema actual de clasificacion bio- 
légica, incluyendo el uso de «nomenclature binomial» (clasificacion en géneros y especies 
en un sentido técnico), fue inventada por el biôlogo sueco Carolus Linnaeus, o Cari von 
Linné (1707-1778). Los problemas asociados con las clases naturales y los limites de 
categorias inexactas han sido estudiados por Wittgenstein (1953), Quine (1953), Lakoff 
(1987) y Schwartz (1977) entre otros. 

El interés en ontologias de gran escala es creciente. El proyecto CYC (Lenat, 1995; 
Lenat y Guha, 1990) ha creado una ontologia superior de 6.000 conceptos con 60.000 
hechos, y soporta una ontologia global mucho mayor. El IEEE ha establecido el subco¬ 
mité P1600.1, el grupo de trabajo de ontologias superiores estândar ( Standard Upper On- 
tology Working Group), y la iniciativa de mente abierta ( Open Mind Initiative) tiene 
afiliados mas de 7.000 usuarios de Internet para introducir mas de 40.000 hechos sobre 
conceptos relacionados con el sentido comün. En la Web, estândares como RDF, XML 
y la Semântica de la Web (Berners-Lee et al., 2001) estân emergiendo, aunque aün no 
son ampliamente utilizados. Las conferencias sobre Ontologias Formules en Sistemas 
de Informaciôn (FOIS, Formai Ontology in Information Systems), contienen articulos 
muy interesantes sobre las ontologias generales y especificas de un dominio. 

La taxonomia utilizada en este capitulo ha sido desarrollada por los autores y esta 
basada en parte en su experiencia en el proyecto CYC, asi como en el trabajo de Hwang 
y Schubert (1993) y Davis (1990). Una debate inspirador acerca del proyecto general de 
la representacion basada en el conocimiento del sentido comün, aparece en el trabajo de 
Hayes The Naive Physics Manifesto (1978, 1985b). 

La representacion del tiempo, el cambio, las acciones y los eventos ha sido am¬ 
pliamente estudiado en Filosofia y en Informâtica Teôrica, asi como en IA. La aproxi- 
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maciôn mas antigua es la lôgica temporal, que es una lôgica especializada en la que 
cada modelo describe una trayectoria compléta en el tiempo (usualmente lineal o ra- 
mificada), en vez de una estructura relacional estâtica. La logica incluye operadores mo¬ 
dales que se aplican a las formulas; Dp significa «p sera siempre cierto» y Op significa 
«p sera cierto en algün momento en el future». El estudio de la lôgica temporal fue ini- 
ciado por Aristôteles y las escuelas estoica y de Megara, en la antigua Grecia. En la ac- 
tualidad, Findlay (1941) fue el primera en sugerir un câlculo formai para razonar sobre 
el tiempo, pero el trabajo de Arthur Prior (1967) es considerado el de mayor influen- 
cia. Los libres de texto incluyen las aproximaciones de Rescher y Urquhart (1971) y 
van Benthem (1983). 

Los informâticos teôricos se han interesado desde hace tiempo en la formalizaciôn 
de las propiedades de los programas, vistas como secuencias de acciones computacio- 
nales. Burstall (1974) introdujo la idea de utilizar operadores modales para razonar 
acerca de los programas de computador. Poco después, Vaughan Pratt (1976) disenô la 
lôgica dinâmica, en la que los operadores modales indican los efectos producidos por 
programas u otras acciones (véase también Harel, 1984). Por ejemplo, en la lôgica di¬ 
nâmica, si a es el nombre de un programa, entonces <<[a\p» significaria «p sera valida 
en todos los estados del mundo que son resultado de la ejecuciôn del programa a en el 
actual estado del mundo» y «( a)p» significaria «p séria valida por lo menos en uno de 
los estados del mundo producido por la ejecuciôn del programa a en el actual estado del 
mundo». Fischer y Ladner (1977) utilizaron la lôgica dinâmica en el anâlisis real de pro¬ 
gramas. Pnueli (1977) fue el primero en utilizar la lôgica temporal clâsica para razonar 
sobre los programas. 

Mientras que la lôgica temporal posiciona el tiempo directamente en la teoria mo¬ 
delo del lenguaje, las representaciones del tiempo en IA han tendido a incorporer axio- 
mas sobre el tiempo y los eventos de forma explicita en la base de conocimiento, y no 
han dado al tiempo una posiciôn especial en la lôgica. Esta aproximaciôn puede permi- 
tir una mayor claridad y flexibilidad en algunos casos. Ademâs, el conocimiento tem¬ 
poral expresado utilizando lôgica de primer orden se puede integrar mâs fâcilmente con 
otro conocimiento que haya sido acumulado con esta notaciôn. 

El câlculo de situaciones de John McCarthy (1963), fue el primer tratamiento del tiem¬ 
po y la acciôn en IA. El primer sistema de IA en hacer un uso sustancial del razonamiento 
de propôsito general sobre acciones utilizando lôgica de primer orden fue QA3 (Green, 
1969b). Kowalski (1979b) desarrollô la idea de reificar proposiciones con el câlculo de 
situaciones. 

El problema del marco fue reconocido por primera vez por McCarthy y Hayes 
(1969). Muchos investigadores consideraron el problema irresoluble utilizando lôgica 
de primer orden, y esto estimulô un gran trabajo de investigaciôn en lôgica no monotô- 
nica. Los filôsofos desde Dreyfus (1972) a Crockett (1994) han citado el problema del 
marco como un smtoma inévitable del fallo de toda la iniciativa de la IA. La soluciôn 
parcial al problema de la representaciôn del marco usando axiomas estado-sucesor se 
debe a Ray Reiter (1991). Una soluciôn a la inferencia en el problema del marco fue he- 
cha por el trabajo de Holldobler y Schneeberger (1990), que ha sido conocido como câl¬ 
culo de flujos (Thielscher, 1999). El debate en este capitulo se basa parcialmente en el 
anâlisis realizado por Lin y Reiter (1997) y Thielscher (1999). Los libres de Shanahan 
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ROBOTICA COGNITIVA 


MEREOLOGIA 


LOGICA MODAL 


(1997) y Reiter (2001b) dan una vision compléta y moderna del tratamiento del razo- 
namiento sobre las acciones en el câlculo de situaciones. 

La soluciôn parcial del problema del marco ha reavivado el interés sobre la aproxi¬ 
maciôn declarativa del razonamiento acerca de las acciones, que se ha visto eclipsado por 
los sistemas de planificaciôn de propôsito especifico desde principios de los anos 70 
(véase el Capitulo 11). Bajo la étiqueta de robôtica cognitiva se harealizado un enorme 
progreso acerca de las representaciones lôgicas de la acciôn y el tiempo. El lenguaje Go- 
LOG usa toda la potencia expresiva de la lôgica de la programaciôn para describir accio¬ 
nes y planes (Levesque et al., 1997a) y se ha extendido para manejar acciones concuirentes 
(Giacomo et al., 2000), entornos estocâsticos (Boutilier et al., 2002) y percepciôn a tra- 
vés de los sentidos (Reiter, 2001a). 

El câlculo de eventos fue introducido por Kowalski y Sergot (1986) para manejar 
tiempo continuo, y han surgido numerosas variaciones (Sadri y Kowalski, 1995). Sha- 
nahan (1999) présenta una sencilla e interesante révision. James Allen introdujo inter- 
valos de tiempo por la misma razôn (Allen, 1983, 1984), argumentando que los intervalos 
eran mucho mas naturales que las situaciones para el razonamiento sobre eventos ex- 
tendidos y concurrentes. Peter Ladkin (1986a, 1986b) introdujo intervalos temporales 
«côncavos» (intervalos con huecos, esencialmente uniones de intervalos temporales 
«convexos») y aplicô las técnicas del âlgebra abstracta matemâtica a la representacion 
del tiempo. Shoham (1987) describe la reificaciôn de eventos y conjuntos a partir de un 
nuevo esquema de su invenciôn para tal propôsito. Existen aspectos significatives en co- 
mün entre la ontologia basada en eventos vista en este capitulo y los anâlisis de eventos 
debidos al filôsofo Donald Davidson (1980). Las historias de Pat Hayes (1985a) como 
ontologia de liquidos también tienen mucho en comün. 

El tema de la ontologia de las sustancias también tiene una larga historia. Plato pro- 
puso que las sustancias fueran entidades abstractas totalmente distintas a los objetos 
fisicos. El diria HechoDe(Manteqnilla v Mantequilla ) en lugar de Mantequilla 3 e Man- 
tequilla. Esto lleva a una jerarquia de sustancias en la cual por ejemplo, Mantequilla- 
SinSal es una sustancia mas especifica que Mantequilla. La posiciôn adoptada en este 
capitulo, en la cual las sustancias son categorias de objetos, fue defendida por Richard 
Montague (1973). También ha sido adoptada en el proyecto CYC. Copeland (1993) créé 
un serio, pero no insuperable, ataque. La aproximaciôn mencionada en el capitulo, en 
el que la mantequilla es un objeto que consiste en todos los objetos mantecosos del uni- 
verso, fue propuesto originalmente por el logistico polaco Lesniewski (1916). Su me- 
reologia (el nombre se dériva de la palabra griega que significa «parte») usa la relaciôn 
parte-conjunto como un sustituto para la teoria de conjuntos matemâticos, con la fina- 
lidad de eliminar entidades abstractas como los conjuntos. Una exposiciôn de estas ide- 
as fâcil de leer la dan Leonard y Goodman (1940), y el trabajo The Structure of 
Appearance (Goodman, 1977) aplica las ideas a varios problemas de representacion del 
conocimiento. Aunque algunos aspectos de la aproximaciôn mereolôgica son confusos 
(por ejemplo, la necesidad de un mecanismo de herencia separado basado en relaciones 
parte-conjunto), la aproximaciôn ganô el apoyo de Quine (1960). Harry Bunt (1985) ha 
proporcionado un anâlisis exhaustivo de su uso en la representacion del conocimiento. 

Los objetos mentales y los estados han sido objeto de intenso estudio en Filosofia e 
IA. La lôgica modal es el método clâsico para el razonamiento acerca del conocimien- 
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to en Filosofia. La logica modal anade operadores modales a la logica de primer orden, 
taies como B (créé) y K (conoce), que reciben sentencias en lugar de términos como ar¬ 
gumentas. La teoria de la demostracion en la logica modal limita la sustitucion al âm- 
bito de los contextos modales, lo que le permite lograr opacidad referencial. La logica 
modal del conocimiento fue inventada por Jaakko Hintikka (1962). Saul Kripke (1963) 
definio la semântica de la logica modal del conocimiento en funciôn de mundos posi- 
bles. En términos generales, se dice que un mundo es posible para un agente siempre y 
cuando dicho mundo sea congruente con todo lo que el agente sabe. Con base en lo an- 
teiror, se pueden deducir réglas de inferencia en las que participe el operador K. Robert 
C. Moore vincula la logica modal del conocimiento con un estilo para razonar sobre el 
conocimiento que hace referencia directa a los mundos posibles de la logica de primer 
orden (Moore, 1980, 1985). Si bien la logica modal puede parecer a veces un campo ar- 
cano e intimidante, son muchas sus aplicaciones en el razonamiento acerca de la infor- 
maciôn en sistemas distribuidos. El libre Reasoning about Knowledge de Fagin et al. 
(1995) proporciona una esmerada introducciôn a la aproximacion modal. La conferen- 
cia bianual Theoretical Aspects of Reasoning About Knowledge (TARK) abarca aplica¬ 
ciones de la teoria del conocimiento en IA, ciencias econômicas y sistemas distribuidos. 

La teoria sintâctica de los objetos mentales fue por primera vez estudiada en pro- 
fundidad por Kaplan y Montague (1960), quienes mostraron que se puede llegar a pa- 
radojas si no se maneja con cuidado. Debido a que tiene un modelo natural en términos 
de creencias como configuraciones fisicas de un computador o un cerebro, se ha hecho 
popular en IA en los ültimos anos. Konolige (1982) y Haas (1986) la usaron para 
describir motores de inferencia de potencia limitada, mientras que Morgenstern (1987) 
mostro como podria ser usada para describir precondiciones del conocimiento en pla- 
nificaciôn. Los métodos para acciones basadas en la observaciôn de planes descritos en 
el Capltulo 12 estân basados en la teoria sintâctica. Emie Davis (1990) establece una ex- 
celente comparacion entre las teorias del conocimiento sintâctica y modal. 

El filôsofo griego Porphyry (234-305 a.C.) comenta sobre las Categorlas de Aris- 
tôteles que establecen lo que podria calificarse como la primera red semântica. Charles 
S. Peirce (1909) desarrollo grafos existenciales como el primer formalismo de redes se- 
mânticas usando logica moderna. Ross Quillian (1961), conducido por un interés acer¬ 
ca de la memoria humana y el procesamiento del lenguaje, inicio el trabajo con las redes 
semânticas dentro del campo de la IA. Un articulo influyente de Marvin Minsky (1975) 
présenté una version de las redes semânticas denominadas marcos. Un marco era una 
representaciôn de un objeto o categorfa, con atributos y relaciones con otros objetos o 
categorlas. Aunque el articulo sirviô para iniciar el interés en el campo de la repre¬ 
sentaciôn del conocimiento en si, fue criticado por ser un conjunto de ideas recicladas 
desarrolladas en el campo de la programacion orientada a objetos, como la herencia y 
el uso de valores por defecto (Dahl et al., 1970; Birtwistle et al., 1973). No estâ muy 
claro hasta qué punto los articulos posteriores sobre programacion orientada a objetos 
fueron influenciados por trabajos anteriores de IA en el campo de las redes semânticas. 

La cuestiôn semântica surgiô muy perspicazmente en relaciôn con las redes semân¬ 
ticas de Quillian (y todos aquellos que siguieron su aproximacion), con su omniprésen¬ 
te y muy vago «enlace ES-UN», asi como otros formalismos de representaciôn del 
conocimiento anteriores como el de Merlin (Moore y Newell, 1973), con sus misterio- 
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sas operaciones «fiat» y «cover». El famoso articulo What’s In a Link? de Wood (1975) 
atrajo la atenciôn de los investigadores de IA hacia la necesidad de disponer de una se- 
mântica précisa en los formalismos de representacion del conocimiento. Brachman 
(1979) entré en detalles sobre este punto y proporcionô soluciones. El trabajo de Patrick 
Hayes (1979) The Logic ofFrames fue aün mas alla, reivindicando que «la mayorfa de 
los ‘marcos’ no son mas que una nueva sintaxis para partes de la logica de primer or- 
den». Drew McDermott (1978b) en su trabajo Tarskian Semantics, or. No Notation wi- 
thout Denotation! argumenté que la aproximaciôn basada en la teoria de modelos para 
la semântica usada en la logica de primer orden deberia ser aplicada a todos los forma¬ 
lismos para la representacion del conocimiento. Esto permanece como una idea contra- 
dictoria. En particular, McDermott ha cambiado su opinion en A Critique ofPure Reason 
(McDermott, 1987). Netl (Fahlman, 1979) fue un sistema sofisticado de red semânti¬ 
ca cuyos enlaces ES-UN (llamados «copias virtuales», o enlaces VC), se basaron mas 
en la nociôn de «herencia» caracterfstica de los sistemas de marco o de los lenguajes de 
programaciôn orientada a objetos, que en el subconjunto de relaciones, y fueron mucho 
mejor definidos que los enlaces de Quillian de la era anterior a Wood. Netl es particu- 
larmente interesante porque fue disenado para ser implementado en hardware paralelo 
para superponerse a la dificultad de recuperar informaciôn de redes semânticas grandes. 
David Touretzky (1986) trata la herencia en el anâlisis matemâtico riguroso. Selman y 
Levesque (1993) tratan la complejidad de la herencia con excepciones, mostrando que 
en la mayoria de las implementaciones en NP-complejo. 

El desarrollo de la logica descriptiva es la etapa mas reciente de una larga linea de 
investigaciôn que ha tenido como objetivo el encontrar subconjuntos de la logica de pri¬ 
mer orden, para los cuales la inferencia sea computacionalmente tratable. Hector Le¬ 
vesque y Ron Brachman (1987) mostraron que ciertas construcciones lôgicas (en 
particular, ciertos usos de la disyunciôn y la negaciôn) fueron responsables en primer 
grado de que la herencia en légica fuera no tratable computacionalmente. Basados en el 
sistema KL-One (Schmolze y Lipkis, 1983), se han desarrollado un gran nümero de sis¬ 
temas cuyos disenos incorporan los resultados del anâlisis teôrico de la complejidad, des- 
tacando Krypton (Brachman et al., 1983) y Classic (Borgida et al., 1989). El resultado 
ha sido un incremento notable en la velocidad de la inferencia y un mejor entendimien- 
to de la interacciôn entre complejidad y expresividad en los sistemas de razonamiento. 
Calvanese et al. (1999) realiza un resumen del estado del arte. En contra de esta tendencia 
Doyle y Patil (1991) han argumentado que restringir la expresividad de un lenguaje hace 
imposible resolver ciertos tipos de problemas o fomenta al usuario a rodear las restric- 
ciones del lenguaje utilizando significados no lôgicos. 

Los très formalismos principales para tratar con la inferencia no monotônica (cir- 
cunscripcién (McCarthy, 1980), logica por defecto (Reiter, 1980) y légica no monoté- 
nica modal (McDermott y Doyle, 1980)), fueron introducidos en un volumen especial 
de la revista de IA. La programaciôn de conjunto de respuestas puede ser vista como una 
extension de la negaciôn como fallo, o como un refinamiento de la circunscripciôn. La 
teoria de base de la semântica estable de modelos fue introducida por Gelfond y Lifs- 
chitz (1988), y los sistemas de referencia para la programaciôn de conjunto de respues¬ 
tas son dlv (Eiter et al., 1998) y Smodels (Niemelâ et al., 2000). El ejemplo de la unidad 
de disco procédé del manual de usuario de Smodels (Syrjânen, 2000). Lifschitz (2001) 
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aborda el tema de la programacion de conjunto de respuestas aplicado a planificacion. 
Brewka et al. (1997) hace una buena révision de varias aproximaciones a la lôgica no 
monotônica. Clark (1978) trata la aproximacion de negacion como fallo en la progra- 
maciôn lôgica y la completitud de Clark. Van Emden y Kowalski (1976) muestran que 
cualquier programa Prolog sin la negacion tiene un modelo minirno ünico. Ultimamen- 
te se ha renovado el interés en la aplicaciôn de lôgica no monotônica a los sistemas de 
representaciôn de conocimiento a gran escala. El sistema BenInq para el manejo de pre- 
guntas sobre los beneficios de seguros seguramente fue la primera aplicaciôn comercial 
con éxito de un sistema de herencia no monotônica (Morgenstern, 1998). Lifschitz 
(2001) trata sobre la aplicaciôn de la programacion de conjunto de respuestas aplicado 
a planificacion. Un amplio conjunto de sistemas de razonamiento no monotônicos ba- 
sados en programacion lôgica se encuentran documentados en las actas de la conferen- 
cia en Logic Programming and Nonmonotonic Reasoning (LPNMR). 

El estudio de sistemas de mantenimiento de verdad comenzô con los sistemas TMS 
(Doyle, 1979) y RUP (McAllester, 1980), los cuales eran esencialmente un SMVJ. La 
aproximacion de los SMVS se describe en una sérié de articulos de Johan de Kleer (1986a, 
1986b, 1986c). Building Problem Solvers (Forbus y de Kleer, 1993) explica en profun- 
didad cômo se pueden utilizar los SMV en aplicaciones de IA. Nayak y Williams (1997) 
muestran cômo un SMV eficiente hace posible planear las operaciones de una nave es- 
pacial de la NASA en tiempo real. 

Por razones obvias este capitulo no cubre todas las areas de la representaciôn del co¬ 
nocimiento en profundidad. Los temas principales omitidos son los siguientes: 

FisicA cuAUTATivA • Fisica cualitativa: subcampo de la representaciôn del conocimiento que se ocupa 

especificamente de la constmcciôn de una teorfa lôgica, no numérica de los objetos 
y procesos fïsicos. El término fue acunado por Johan de Kleer (1975), si bien po- 
dria considerarse a Fahlman (1974) como el precursor con su planificador Build. 
Este era un planificador complejo para constmir complicadas torres de bloques. Du¬ 
rante el proceso de diseno, Fahlman se dio cuenta de que la mayor parte del trabajo 
(80 por ciento) se invertia en modelar la fisica del mundo de los bloques para de- 
terminar la estabilidad de diversos subconjuntos de bloques, en vez de hacerlo den- 
tro de la planificacion en si. Esbozô un hipotético procedimiento semejante a la fisica 
intuitiva ( naive ) para explicar el por qué los ninos son capaces de resolver proble- 
mas semejantes a los de Build sin recurrir a la veloz aritmética de punto flotante em- 
pleada en el modelado fisico de Build. Hayes (1985a) emplea «historias», segmentas 
espacio-temporales de cuatro dimensiones semejantes a los eventos de Davidson, para 
constmir una fisica intuitiva de los liquidos bastante compleja. Hayes fue el prime¬ 
ra en demostrar que una banera con un tapôn terminarâ desbordândose si el grifo se 
mantiene abierto y que una persona que cae en un lago terminarâ empapada. De Kle¬ 
er y Brown (1985) y Ken Forbus (1985) intentaron la constmcciôn de algo asi como 
una teoria de propôsito general para el mundo fisico, basada en las abstracciones cua- 
litativas de ecuaciones fisicas. En los ültimos anos, la fisica cualitativa se ha des- 
arrollado al grado de que permite el anâlisis de una impresionante diversidad de 
sistemas fisicos complejos (Sacks y Joskowicz, 1993; Yip, 1991). Las técnicas cua- 
litativas se han empleado también para constmir novedosos disenos de relojes, lim- 
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RAZONAMIENTO 

ESPACIAL 


RAZONAMIENTO 

PSICOLOGICO 



piaparabrisas y robots de seis piemas (Subramanian, 1993; Subramanian y Wang, 
1994). Una buena introducciôn a este campo es la colecciôn Readings in Qualitati¬ 
ve Reasoning about Physical Systems (Weld y de Kleer, 1990). 

• Razonamiento espacial: el razonamiento necesario para navegar en el mundo de 
wumpus y el del mercado es trivial comparado con la rica estructura espacial del 
mundo real. El esfuerzo mas compléta por capturar el razonamiento con sentido 
comün acerca del espacio esta plasmado en el trabajo de Ernest Davis (1986; 1990). 
El câlculo de conexiôn de regiones de Cohn et al., (1997) utiliza una forma de 
razonamiento espacial cualitativo y ha llevado a nuevas clases de sistemas de in- 
formaciôn geogrâfica. Como en el caso de la fisica cualitativa, muestra que los agen¬ 
tes pueden avanzar bastante, por decirlo asi, sin recurrir a la ayuda de la 
representaciôn métrica. Cuando tal representaciôn es necesaria, se pueden emplear 
las técnicas disenadas por la robôtica (Capitulo 25). 

• Razonamiento psicolôgico: consiste en el desarrollo de una psicologîa de traba¬ 
jo para que los agentes la utilicen al razonar sobre si mismos y otros agentes. A 
menudo, esta basada en lo que se conoce como psicologîa popular; aquellas teo- 
rias que en general utilizan los humanos al razonar sobre si mismos y sobre otros 
seres humanos. Cuando los investigadores de IA proporcionan a sus agentes arti- 
ficiales teorfas psicolôgicas para razonar sobre otros agentes, taies teorias por lo 
general se basan en la descripciôn de los investigadores del propio diseho de los 
agentes lôgicos. El razonamiento psicolôgico es realmente mas ütil en el contex¬ 
te de la interpretaciôn del lenguaje natural, en donde la capacidad para anticipar 
las intenciones del hablante es de suma importancia. 

Las actas de las conferencias intemacionales sobre los Principios de la Representaciôn 
del Conocimiento y del Razonamiento constituyen las fuentes mas actualizadas de los 
trabajos que se realizan en esta area. Readings in Knowledge Représentation (Brachman 
y Levesque, 1985) y Formai Théories ofthe Commonsense World (Hobbs y Moore, 1985) 
son excelentes antologlas de la representaciôn del conocimiento. La primera se enfoca 
mas en articulos de importancia histôrica, en lenguajes de representaciôn y formalismos, 
mientras que la segunda lo hace en el conocimiento acumulado en este campo. Davis 
(1990), Stefik (1995) y Sowa (1999) proporcionan introducciones a los libros de texto 
acerca de la representaciôn del conocimiento. 


EJERCICIOS 

10.1 Escriba sentencias para définir los efectos de la acciôn Disparar en el mundo de 
wumpus. Describa sus efectos en wumpus y recuerde que el disparo usa la flécha del 
agente. 

10.2 En el câlculo de situaciones, escriba un axioma para asociar el tiempo 0 con la 
situaciôn S 0 y otro axioma para asociar el tiempo t con cualquier situaciôn derivada de 
S 0 a través de una secuencia t de acciones. 







420 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


10.3 En este ejercicio, se considerarâ el problema de planear una ruta para un robot 
para ir desde una ciudad a otra. La acciôn bâsica que puede tomar el robot es Ir(x, y), 
que lo lleva desde la ciudad x a la ciudad y si existe una ruta directa entre esas ciudades. 
RutaDirecta(x, y) es cierto si y solo si, existe una ruta directa entre x e y. Se puede asu- 
mir que todos estos hechos estân ya en la base de conocimiento ( véase el mapa en el Apar- 
tado 3.1). El robot comienza en Arad y debe llegar a Bucarest. 

a ) Escriba una descripcion lôgica adecuada para la situaciôn inicial del robot. 

b ) Escriba una peticiôn lôgica adecuada cuyas soluciones proporcionarân rutas po- 
sibles hacia el objetivo. 

c) Escriba una sentencia describiendo al acciôn Ir. 

d) Ahora supôngase que siguiendo la ruta directa entre dos ciudades se consume 
una cantidad de combustible igual a la distancia entre las ciudades. El robot co¬ 
mienza con el depôsito lleno de combustible. Aumente la representaciôn para 
incluir estas consideraciones. La descripcion de la acciôn debe ser tal, que la pe- 
ticiôn formulada anteriormente proporcione planes viables. 

e ) Describa la situaciôn inicial, y escriba una nueva régla o conjunto de réglas para 
describir la acciôn Ir. 

f ) Ahora supôngase que algunos de los vértices tienen también gasolineras, don- 
de el robot puede llenar su depôsito. Extienda la representaciôn y escriba todas 
las réglas necesarias para describir las gasolineras, incluyendo la acciôn de Re- 
postar. 

10.4 Utilizando los axiomas de la Secciôn 10.3, muestre los pasos de razonamiento lô- 
gico que permiten concluir que la acciôn Ambos(Impulsar(Izquierda), Impulsar(Dere- 
cha )) no derramarân la sopa. 

10.5 Représente las siguientes siete sentencias utilizando y extendiendo las represen- 
taciones desarrolladas en el capitulo: 

a ) El agua es liquida ente 0 y 100 grados. 

b ) El agua hierve a 100 grados. 

c ) El agua de la botella de John esta congelada. 

d ) Perrier es un tipo de agua. 

e ) John tiene agua de tipo Perrier en su botella. 

f) Todos los liquidos tienen un punto de congelaciôn. 

g) Un litro de agua pesa mas que un litro de alcohol. 

Ahora repita el ejercicio usando una representaciôn que utilice mereologia, en el cual, 
por ejemplo, Agua es un objeto que contiene como partes toda el agua del mundo. 

10.6 Escriba definiciones para lo siguiente: 

a) DescomposiciônDeParteExhaustiva. 

b) ParticiônDeParte. 

c ) PartesDisjuntas. 

Esto deberfa ser anâlogo a la definiciôn de DecomposiciônExhaustiva, Partition y Dis- 
yunciôn. / ; Es el caso de ParticiônDeParte{s, GrupoDe(s ))?, si es asi demuéstrelo, si no, 
proporcione un contraejemplo y defina las condiciones suficientes bajo las cuales si es 
cierto. 
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10.7 Escriba un conjunto de sentencias que permitan calcular el precio de un tomate 
individual (u otro objeto), dado el precio por kilo. Extienda la teorfa para permitir el câl- 
culo del precio de una boisa de tomates. 

10.8 Un esquema alternativo para representar medidas consiste en aplicar la funcion 
de medida a un objeto de longitud abstracta. En este esquema, ; sc podrfa escribir Pul- 
gadas{Longitud{L^j) — 1,5?, ^cômo se compara este esquema con el visto en el capitu- 
lo? Algunos aspectos a tener en cuenta son la necesidad de incluir axiomas de conversion, 
nombres para cantidades abstractas (como «50 dôlares») y comparaciones de medidas 
abstractas en diferentes unidades (50 pulgadas son mas que 50 centimètres). 

10.9 Construya una aplicacion para intercambio de monedas que permita fluctuacio- 
nes diarias del cambio de moneda. 

10.10 Este ejercicio contempla las relaciones entre categorias de eventos y el interva- 
lo de tiempo en el cual ocurren: 

a) Defina el predicado Tic, i) en términos de SubEvento y e . 

b) Explique de forma précisa por qué no se necesitan dos notaciones diferentes para 
describir categorias de eventos disjuntas. 

c) Dé una definicion formai para T(UnoDe(p, q), i ) y T(0(p, q), i). 

d) Explique si tiene sentido tener dos formas de negacion de eventos, anâlogas a 
las dos formas de disyuncion. Denomine No y Nunca y dé para ellas una defi- 
niciôn formai. 

10.11 Defina el predicado Constante, donde Constante(Eocalizaciôn{x )) significa que 
la localizaciôn del objeto x no cambia en el tiempo. 

10.12 Defina los predicados Antes, Después, Durante y Superpuesto, utilizando el pre¬ 
dicado Coincidir y las funciones Inicio y Fin, pero no la funcion Tiempo o el predica¬ 
do <. 

10.13 En la Secciôn 10.5 se utilizaron los predicados Enlace y TextoDeEnlace para des¬ 
cribir conexiones entre paginas web. Utilice los predicados EnEtiqueta y ObtenerPâgi- 
na, entre otros, para escribir definiciones para Enlace y TextoDeEnlace. 

10.14 Una parte del proceso de compra que no fue cubierto en este capitulo es la com- 
probacion de compatibilidad entre articulos. Por ejemplo, si un cliente pide un compu- 
tador, ^se conecta adecuadamente con los periféricos deseados? Si se solicita una câmara 
digital, / tiene la tarjeta de memoria correcta y las baterfas? Escriba una base de cono- 
cimiento que décida cuândo un conjunto de articulos es compatible y puede ser utiliza- 
do para sugerir cambios o articulos adicionales si los originales no son compatibles. 
Asegürese de que la base de conocimiento trabaja con al menos una gama de productos 
y es fâcilmente extensible a otras. 

10.15 Anada réglas para extender la definicion del predicado Nombre(s, c) de tal for¬ 
ma que una cadena como «computador portâtil» se corresponda con los nombres de 
categorias adecuados de diferentes almacenes. Trate de hacer la definicion general. Com- 
pruebe si funciona buscando en diez almacenes online y en los nombres de categorias 
que tiene cada uno. Por ejemplo, para la categoria de portâtiles, se encuentran los nom- 
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bres «Notebooks», «Portâtiles», «Computadores notebook», «Portâtiles y notebooks» y 
«Notebooks PC». Algunos de ellos pueden ser soportados por ocurrencias Nombre ex¬ 
plicitas, mientras que otros podrfan ser implementados por réglas para manejar plura¬ 
les, conjunciones, etc. 

10.16 Una soluciôn compléta al problema de las correspondencias inexactas en las des- 
cripciones de un cliente respecto a su compra es muy dificil, y requiere un compléta des- 
pliegue de procesamiento de lenguaje natural y técnicas de recuperaciôn de informacion 
(véarise los Capitulos 22 y 23). Un pequeno paso es permitir al usuario especificar unos 
valores minimos y mâximos para varios atributos. Se insistirâ en que el usuario utilice 
la siguiente gramâtica a la hora de describir sus productos: 

Description —■* Catégoriel \Conector Modificador\* 

Conector —> «con» | «y» | «,» 

Modificador —■* Atributo \ Atributo Op Valor 

Op —> «=»|«>»| «<» 

Aqui, Categoria da nombre a una categoria de productos, Atributo es cualquier ca- 
racteristica como «CPU» o «precio» y Valor es el valor objetivo para el atributo. Por lo 
tanto, la peticion «computador con al menos una CPU de 2,5 GHz por menos de 1.000 
dôlares» se ha de expresar como «computador con CPU > 2,5 GHz y precio < 1.000 do- 
lares». Implemente un agente de compra que acepte descripciones en este lenguaje. 

10.17 En la descripcion de compra por Internet se omitiô el paso importante de real- 
mente comprar el producto. Proporcione una descripcion lôgica formai para comprar, 
utilizando câlculo de eventos. Es decir, defina la secuencia de eventos que ocurren cuan- 
do un comprador envia su pedido con el nümero de su tarjeta y fmalmente se emite un 
recibo y recibe el producto. 

10.18 Describa el evento de intercambiar algo por otra cosa. Describa la compra como 
una clase de intercambio donde uno de los objetos intercambiados es una cantidad de 
dinero. 

10.19 Los dos ejercicios anteriores asumen una nociôn bastante primitiva de la pro- 
piedad. Por ejemplo, el comprador comienza poseyendo los billetes. Este panorama co- 
mienza a desmoronarse cuando, por ejemplo, el dinero de uno esta en el banco, porque 
no hay ninguna colecciôn especifica de billetes que uno posee. El panorama se compli- 
ca cuando se utilizan préstamos, leasing, alquileres y fianzas. Investigue los aspectos de 
sentido comün y conceptos legales sobre la pertenencia, y proponga un esquema mediante 
el cual puedan ser representados formalmente. 

10.20 Se trata de crear un sistema para aconsejar a los alumnos de informâtica sobre 
qué cursos seleccionar durante un perfodo de tiempo prolongado para satisfacer los re- 
querimientos del programa (use cualquier requerimiento que sea adecuado para su insti- 
tuciôn). Primero, décida un vocabulario para representar toda la informacion y después 
represéntela. A continuaciôn utilice una peticion adecuada para el sistema, que devolve- 
râ un programa legal de estudios como soluciôn. Se deberia permitir, para adaptar el sis¬ 
tema a usuarios individuales, que el sistema preguntara por los cursos o equivalencias que 
los estudiantes ya han cursado, y no generar programas que repitan dichos cursos. 
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Sugiera formas en las que el sistema podria ser mejorado (por ejemplo teniendo en 
cuenta el conocimiento sobre las preferencias de los estudiantes, la carga de trabajo, ins- 
tructores buenos y malos etc.). Para cada clase de conocimiento, explique como podria 
ser expresado lôgicamente. ^Podrfa el sistema incorporar fâcilmente esta informaciôn 
para encontrar el mejor programa de estudios para un estudiante? 

10.21 La Figura 10.1 muestra los niveles superiores de una jerarquia para cualquier 
cosa. Extiéndase para incluir tantas categorias como sean posibles. Una buena forma de 
hacer esto es cubrir todas las cosas de la vida a diario. Esto incluye objetos y eventos. 
Comience por levantarse y seguir de una forma ordenada anotando todo lo que uno ve, 
toca, hace y piensa. Por ejemplo, un ejemplo de prueba aleatoria produce müsica, noti- 
cias, leche, andar, conducir, repostar, soda, alfombra, hablar, profesor Fateman, polio al 
curry, lengua, 7 dôlares, sol, la prensa del dia, etc. 

Se deberia generar una grâfico de jerarquia simple (en un trozo de papel grande) y 
un listado de objetos y categorias con las relaciones que satisfacen los miembros de cada 
categoria. Todo objeto deberia estar en una categoria, y cada categoria deberia estar en 
la jerarquia. 

10.22 (Adaptado de un ejemplo de Doug Lenat.) La misiôn es capturar, de una forma 
lôgica, conocimiento suficiente para responder una sérié de preguntas sobre la siguien- 
te sentencia simple: 

Ayer John fue al supermercado Safeway del norte de Berkeley y comprô dos libras 

de tomates y una libra de came picada. 

Comience por tratar de representar el contenido de la sentencia en un conjunto de aser- 
ciones. Se deberian escribir sentencias con una estructura lôgica sencilla (por ejemplo, 
sentencias en las que los objetos tienen ciertas propiedades, en las que los objetos se re- 
lacionan de cierta foima, en las que los objetos que satisfacen una propiedad satisfacen 
otra). Lo siguiente puede ayudar para empezar: 

• ^Qué clases, objetos y relaciones son necesarios? ^Cuâles son sus padres, herma- 
nos y demâs? (Se necesitarân eventos y ordenamiento temporal, entre otras cosas.) 

• / ; En qué lugar tendrian cabida en una jerarquia mas general? 

• / Cuâlcs son las restricciones y las interrelaciones entre ellos? 

• / ; Qué nivel de detalle se debe tener con cada uno de los conceptos? 

La base de conocimiento que se construya deber ser capaz de responder una lista de pre¬ 
guntas que se proporcionarân en breve. Algunas de las preguntas tratan sobre el mate- 
rial dado explicitamente en el texto, pero la mayorfa requieren tener otro conocimiento 
de fondo (una lectura entre lineas). Se deberâ tratar con las clases de cosas que hay en 
un supermercado, lo que rodea el proceso de comprar las cosas seleccionadas, para qué 
serân usadas, etc. Trate de realizar la representaciôn lo mas general posible. Por dar un 
ejemplo trivial: no diga «La gente compra comida en Safeway», porque esto no le ayu- 
darâ con la gente que compra en otro supermercado. No diga «Joe hace spaghetti con 
tomate y came picada», porque no le ayudarâ con absolutamente nada mas. Ademâs, no 
le dé la vuelta a las preguntas convirtiéndolas en respuestas. Por ejemplo, la pregunta 
(c) dice: «^Comprô John carne?» (no «^Comprô John una libra de carne picada?»). 
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Esboce el proceso de razonamiento que responderia a las preguntas. Para realizar- 
lo, necesitarâ sin lugar a dudas crear conceptos adicionales, realizar nuevas aserciones, 
etc. Si es posible, utilice un sistema de razonamiento lôgico para demostrar la suficien- 
cia de su base de conocimiento. La mayoria de las cosas que escriba no serân del todo 
correctas en la realidad, pero no se preocupe demasiado. La idea es extraer el sentido 
comün que le permita responder a todas las cuestiones. Una respuesta totalmente correcta 
a todas las preguntas es extremadamente compleja, probablemente mas alla del estado 
de arte en las investigaciones actuales sobre representaciôn del conocimiento. Pero us- 
ted deberia ser capaz de proporcionar un conjunto consistente de axiomas para las pre¬ 
guntas en concreto aqui expresadas. 

a) /John es un nino o un adulto? [Adulto] 

b) /Ticnc John ahora por lo menos dos tomates? [Si] 

c) /Comprô John carne? [Si] 

d) /Si Mary estaba comprando tomates al mismo tiempo que John, le vio él a ella? 
[Si] 

e ) /Se hacen los tomates en el supermercado? [No] 

f) /Que va a hacer John con los tomates? [Comérselos] 

g) /Se vende desodorante en Safeway? [Si] 

h) /Trajo John dinero al supermercado? [Si] 

i) /Ticnc John menos dinero después de ir al supermercado? [Si] 

10.23 Anada o realice los cambios necesarios a la base de conocimiento del ejercicio 
anterior para que las preguntas que siguen a continuation se puedan responder. Mues- 
tre que se pueden realmente responder utilizando la base de conocimiento, e incluya en 
el informe una referencia de los cambios, explicando por qué fueron necesarios, si fue- 
ron grandes o pequenos, etc. 

a) /Hay otra gente en Safeway mientras John esta alli? [Si, ;el personal!] 

b) /Es John vegetariano? [No] 

c) /De quién es el desodorante de Safeway? [De la compania Safeway] 

d ) /Obtuvo John una libra de carne picada? [Si] 

e ) /'Ténia la gasolinera cerca de su puerta combustible? [Si] 

f) /Cupieron los tomates en el maletero del coche de John? [Si] 

10.24 Recuerde que la information sobre la herencia en las redes semânticas puede 
ser capturada logicamente por sentencias de implication adecuadas. En este ejercicio, 
se considéra la eficiencia de usar estas sentencias para la herencia. 

a) Considéré la information contenida en un catâlogo de coches usados como el 
Libro Azul de Kelly (por ejemplo, que las furgonetas Dodge de 1973 valen 575 
dôlares). Suponga que toda esta information (para 11.000 modelos) esta codi- 
ficada en réglas lôgicas como se sugiere en este capitulo. Escriba très réglas asi, 
incluyendo las de la furgoneta Dodge de 1973. /Como usaria las réglas para en- 
contrar el valor de un vehiculo concreto (por ejemplo, JB), el cual es una fur¬ 
goneta Dodge de 1973? 

b) Compare la eficiencia en tiempo del método de encadenamiento hacia atrâs para 
resolver este problema con el método de herencia usado en las redes semânticas. 
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c) Explique como el encadenamiento hacia delante permite a un sistema basado 
en logica resolver el mismo problema eficientemente, suponiendo que la base 
de conocimiento solo contiene las 11.000 réglas sobre precios. 

d) Describa una situaciôn en la que ni el encadenamiento hacia delante ni el que 
va hacia atrâs permitirâ manejar eficientemente una consulta de precio para un 
vehiculo particular. 

e) / Pucdc sugerir una solucion que permita resolver eficientemente este tipo de con¬ 
sulta en todos los casos en sistemas lôgicos? (Pista: Recuerde que dos vehicu- 
los de la misma categorfa tienen el mismo precio.) 

10.25 Uno podrfa suponer que la distincion sintâctica entre los enlaces no encuadra- 
dos y los encuadrados de forma simple en las redes semânticas es innecesaria, porque 
los enlaces encuadrados de forma simple estân unidos siempre a categorias. Un algorit- 
mo de herencia podrfa asumir simplemente que un enlace no encuadrado debe aplicar- 
se a todos los miembros de esa categorfa. Muestre que este argumento es falaz, dando 
ejemplos de los errores que podrian surgir. 





Planifie aciôn 


Donde veremos cômo un agente puede extraer ventaja del conocimiento 
de la estructura de un problema para construit • complejos planes de acciôn. 


Llamaremos planification al proceso de büsqueda y articulaciôn de una secuencia de 
acciones que permitan alcanzar un objetivo. Hemos visto dos ejemplos de agentes pla- 
nificadores hasta el momento: el agente solucionador de problemas basado en büsque- 
das, Capitulo 3, y el agente planificador lôgico del Capitulo 10. Este capitulo se ocuparâ 
principalmente de ampliar el estudio a problemas de planification complejos que no pue- 
den abordarse mediante los enfoques propuestos hasta ahora. 

La Secciôn 11.1 présenta un lenguaje adecuado para la formulaciôn de problemas 
de planification, incluyendo acciones y estados. Este lenguaje esta estrechamente rela- 
cionado con el que se mostrô para la representaciôn proposicional y de primer-orden de 
acciones, estudiadas en los Capitulos 7 y 10. La Secciôn 11.2 muestra cômo los algorit- 
mos de büsqueda hacia-adelante y hacia-atrâs aprovechan esta forma de representaciôn, 
principalmente a través de heuristicas adecuadas que pueden derivarse automâticamen- 
te de la estructura de la representaciôn de los problemas (anâlogamente al modo en que 
vimos en el Capitulo 5 cômo se construyeron heuristicas adecuadas en problemas a los 
que se imponian restricciones). La Secciones 11.3, 11.4 y 11.5 describen algoritmos de 
planification que van mas alla que las büsquedas hacia-adelante y hacia-atrâs, aprove- 
chândose de la information proporcionada por la estructura de los problemas. En parti- 
cular, exploraremos enfoques que no estân restringidos exclusivamente a la consideraciôn 
de secuencias de acciones ordenadas. 

En este capitulo, tendremos en cuenta entornos que son completamente observa¬ 
bles, deterministas, finitos, estâticos (los cambios suceden solo cuando los agentes 
actüan) y discretos (en tiempo, acciones, objetos y efectos). Estos contextos se deno- 
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minan entornos de planification clâsica. En contraste, la planificacion no-clâsica se 
ocuparâ de contextos parcialmente observables o estocâsticos donde se aplicarân di- 
ferentes propuestas y disenos de agentes y algoritmos, tal como se expondrâ en los Ca- 
pitulos 12 y 17. 


11.1 El problema de planificacion 


PLANIFICACION 

CLÂSICA 


Consideremos qué sucederia si un agente solucionador de problemas, que utilizase al¬ 
goritmos de büsqueda clâsicos para llevar a cabo su tarea (büsqueda en profundidad, A*, 
etc.), se enfrentase a problemas en entornos reales. Este planteamiento nos ayudarâ a di- 
senar mejores agentes de planificacion. 

La primera dificultad y mas obvia es la posibilidad de que el agente pueda ser des- 
bordado por acciones irrelevantes al problema. Consideremos la tarea de comprar un 
ejemplar del libro «Inteligencia Artificial: un enfoque moderno» en una librerfa online. 
Supongamos que tenemos una accion de compra para cada numéro ISBN de 10 digitos 
y para un total de 10 billones de acciones. El algoritmo de büsqueda tendria que exa- 
minar los resultados de los 10 billones de acciones para encontrar una que satisficiese 
el objetivo de adquirir la copia de un libro con ISBN 0137903952. En contraposiciôn, 
un agente de planificacion razonable deberia ser capaz de trabajar con expresiones de 
objetivos explicitas taies como Tener(ISBN 0137903952) y generar la accion Com- 
prar(ISBN 0137903952) directamente. Para hacer esto, el agente simplemente necesita 
un conocimiento general del tipo « Comprar(x) se reduce a Tener(x)». Dado este cono- 
cimiento y el objetivo propuesto, el planificador puede decidir en un ünico paso unifi- 
cado que Comprar(lSBN 0137903952) es la accion correcta. 

La siguiente dificultad es encontrar una funciôn heuristica adecuada. Supongamos 
que el objetivo del agente es comprar cuatro libres diferentes en una libreria online. Ten- 
dremos 10 40 planes formados por cuatro etapas, por lo que una büsqueda sin recurrir a 
la ayuda de una heuristica no puede ser ni cuestionada. Es obvio que para un humano 
séria una buena estimaciôn heuristica que el coste de un estado fuese el nümero de li¬ 
bres que permanecen sin ser comprados; desafortunadamente, esta vision perspicaz no 
es obvia para un agente que evalüa su objetivo como una caja negra que devuelve un 
valor Verdadero o Falso para cada estado. Por tanto, al agente solucionador de proble¬ 
mas le falta autonomia; requiere de un humano que le suministre una funciôn heuris¬ 
tica para cada nuevo problema. Sin embargo si un agente planificador tiene acceso a 
una representaciôn explicita del objetivo como una secuencia de subobjetivos, puede 
utilizar una simple heuristica independiente de dominio : el nümero de conjunciones in- 
satisfechas. Para el problema anterior de la compra del libro, el objetivo podria ser 
Tener(A) a Tener(B) a Tener(C) a Tener(D), y un estado conteniendo Tener(A) a 
Tener{C) podria presentar coste dos. De este modo, el agente automâticamente adquiere 
la heuristica correcta para este problema y para otros. Veremos mas tarde en el capitu- 
lo como construir heuristicas sofisticadas que examinen tanto las acciones disponibles 
como la estructura del objetivo. 
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DESCOMPOSICIÔN DE 
PROBLEMAS 


PRÂCTICAMENTE 

DESCOMPONIBLES 


Finalmente, el solucionador de problemas podria ser ineficaz porque no pudiera apro- 
vecharse de la descomposiciôn del problema. Consideremos el problema de trasladar 
un conjunto de maletas de viaje a sus respectivos destinos, los cuales estân distribuidos 
a lo largo de Australia. Una estrategia logica séria buscar el aeropuerto mas prôximo a 
cada destino y dividir el problema total en varios subproblemas, uno por cada aeropuerto. 
Para cada conjunto de maletas asignadas a un aeropuerto determinado, el problema se 
descompone mas profundamente, en funciôn del destino concreto. Vimos en el Capitu- 
lo 5 que este tipo de descomposiciôn contribuye a la eficiencia en la resoluciôn de pro¬ 
blemas que deben satisfacer restricciones impuestas. Esto es igualmente vâlido para 
planificadores: en el peor de los casos, el orden temporal para encontrar el mejor plan 
que entregase n paquetes séria O (ni), pero solamente un orden temporal 0((n/k)\ X k) 
si el problema puede ser descompuesto en k partes iguales. 

Como hicimos notar en el Capitulo 5, problemas perfectamente descomponibles no 
son frecuentes 1 . El diseno de muchos sistemas de planificaciôn (especialmente los pla¬ 
nificadores de orden-parcial descritos en la Secciôn 11.3) estân basados en la hipôtesis 
de que la mayor parte de los problemas originados en contextos reales son prâcticamente 
descomponibles. Esto es, el planificador puede trabajar siguiendo subobjetivos de ma- 
nera independiente, aunque podria necesitar trabajo adicional para combinar el resulta- 
do de los subplanes generados. Para algunos problemas, esta hipôtesis no es valida 
porque trabajar en la consecuciôn de un subobjetivo probablemente deje de lado algün 
otro. Estas interacciones entre subobjetivos son uno de los motivos que hacen a los puz- 
les desconcertantes. 


El lenguaje de los problemas de planifîcaciôn 

La discusiôn precedente sugiere que la representaciôn de los problemas de planifîcaciôn 
(estados, acciones y objetivos) debe hacer posible que los algoritmos de planifîcaciôn 
se aprovechen de la estructura logica del problema. La clave esta en encontrar un len¬ 
guaje que sea suficientemente expresivo para describir un amplio rango de problemas, 
pero suficientemente restrictivo para permitir algoritmos operativos y eficientes. En esta 
secciôn, destacaremos en primer lugar el lenguaje de representaciôn bâsico de los pla¬ 
nificadores clâsicos, conocido como el lenguaje Strips 2 . Posteriormente, expondremos 
algunas de las diferentes modificaciones que se han desarrollado de lenguajes tipo- 
Strips. 

Representaciôn de estados. Los planificadores descomponen el mundo en términos 
de condiciones lôgicas y representan un estado como una secuencia de literales positivos 
conectados. Consideraremos literales proposicionales: por ejemplo, Pobre a Desconoci- 
do puede representar el estado de un agente desafortunado. Utilizaremos también litera¬ 
les de primer-orden como por ejemplo, En(Aviôn l , Melbourne) a En(Aviôn 2 , Sydney), que 


1 Nôtese que incluso la entrega de un paquete no es un problema perfectamente descomponible. Pueden exis- 
tir casos en los cuales sea mejor asignar paquetes a un aeropuerto mâs lejano si eso évita un vuelo a un ae¬ 
ropuerto mas cercano innecesariamente. Sin embargo, muchas compamas de transporte prefieren la simplicidad 
organizacional y computacional de soluciones descomponibles. 

2 STRIPS significa STandford Research Institute Problem Solver. 
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SATISFACCION 
DE 0BJETIV0S 


ESQUEMA DE ACCIÔN 


PRECONDICION 

EFECTO 


LISTA ANADIR 
LISTA BORRAR 


APLICABLE 


puede representar un estado en el problema del reparto de equipajes. Los literales, en un 
marco de descripciones de primer orden, deben ser simples y sin dependencias funcio- 
nales. Por ejemplo, literales del tipo En(x, y) o En(Padre(Fred), Sydney) no se permiten. 
La hipôtesis de un mundo cerrado es asumida por la que todas las condiciones que no 
son mencionadas en un estado, se asume que son falsas. 

Representaciôn de objetivos. Un objetivo es un estado parcialmente especificado, 
representado como una secuencia de literales positivos y simples, taies como Rico a Fa- 
moso o En(P 2 , Tahiti ). Un estado proposicional s satisface un objetivo g si 5 contiene 
todos sus elementos en g (y posiblemente otros ademâs). Por ejemplo, el estado Rico a 
Famoso a Misérable satisface el objetivo Rico a Famoso. 

Representaciôn de acciones. Una acciôn es especificada en términos de las pre- 
condiciones que deben cumplirse antes de ser ejecutada y de las consecuencias que se 
siguen cuando se ejecuta. Por ejemplo, la acciôn que nos indica como un avion vuela 
desde una ciudad a otra puede exponerse como: 

Acciôn {avion(p, desde, hasta), 

Precond :En{p, desde) a aviôn{p) a aeropuerto{desdé) a aeropuerto (hasta) 

Efecto: - ! En (p, desde) a En (p, hasta) 

Esto es mas propio llamarlo esquema de acciôn, para indicar que représenta un nüme- 
ro de diferentes acciones que pueden ser derivadas mediante la instanciaciôn de las va¬ 
riables p, desde y hasta pudiendo adquirir diferentes valores. En general, un esquema 
de acciôn consta de très partes: 

• El nombre de la acciôn y la lista de parâmetros de los que dépende la acciôn 
(por ejemplo, Volar(p, desde, hasta) sirve para identificar la acciôn. 

• La precondiciôn es la union de literales positivos sin dependencia funcional es- 
tableciendo lo que debe ser verdad en un estado antes de que una acciôn sea eje¬ 
cutada. Todas las variables en las precondiciones deben también aparecer en la lista 
de parâmetros de acciôn. 

• El efecto es la union de literales sin dependencia funcional describiendo como el 
estado cambia cuando la acciôn es ejecutada. Un literal positivo P en el efecto se 
espera que sea verdadero en el estado résultante de la acciôn, mientras que un li¬ 
teral negativo ~>P se espera que sea falso. Las variables en el efecto deben perte- 
necer a la lista de parâmetros de acciôn. 

Para hacer mâs sencilla la legibilidad, algunos sistemas de planifrcaciôn dividen el efec¬ 
to en dos listas de literales: los positivos en la lista Anadir, y los negativos en la lista 
Borrar. 

Hasta ahora hemos definido la sintaxis en la representaciôn de problemas de plani¬ 
frcaciôn; veremos ahora como définir la semântica. El modo mâs sencillo es mediante 
la descripciôn de como las acciones afectan a los estados (un método alternativo con¬ 
siste en especificar una traslaciôn directa a un conjunto de axiomas de estado sucesivo, 
cuya semântica viene directamente de las réglas de la lôgica de primer orden; véase Ejer- 
cicio 11.3). Diremos que una acciôn es aplicable en cualquier estado que satisfaga sus 
precondiciones; en otro caso, la acciôn no tendrâ efecto. La aplicaciôn, para un esque- 
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RESULTADO 


HIPÔTESIS STRIPS 


SOLUCIÔN 


ma de accion de primer orden, se reduce a la sustitucion 6 de las variables en la pre- 
condiciôn. Por ejemplo, supongamos que el estado actual esta descrito por 

En(P x , JFK) a En(P 2 , SFO) a AviôniP /) a Aviôn(P 2 ) 
a Aeropuerto(JFK) a Aeropuerto(SFO) 

Este estado satisface la precondiciôn 

En(p, desde) a Aviôn(p) a Aeropuerto(desde ) a Aeropuerto ( hasta ) 

con la sustitucion [p/P v desde/JFK, hasta/SFO} (junto a otros; véase Ejercicio 11.2). 
De esta forma, la accion concreta Volar(P l , JFK, SFO ) es aplicable. 

Comenzando en el estado 5, el resultado de ejecutar una accion aplicable a nos 11e- 
va a otro estado s', que es el mismo que s excepto que cualquier literal positivo P en el 
efecto de a es anadido a s' , y cualquier literal negativo ->P es eliminado d es'. De este 
modo, después de Volar(P x , JFK, SFO), el estado actual se convierte en 

En(P u SFO ) a Fn(P 2 , SFO) a Aviôn(P x ) a Aviôn(P 2 ) 
a Aeropuerto(JFK) a Aeropuerto(SFO) 

Notemos que si un efecto positivo esta ya en s no se anade dos veces, y si un efecto ne¬ 
gativo no esta en s, enfonces esa parte del efecto es ignorada. Esta definiciôn expresa la 
llamada hipôtesis STRIPS: cada literal no mencionado en el efecto permanece sin mo- 
dificar. De este modo, STRIPS évita el problema del marco representacional descrito 
en el Capitulo 10. 

Finalmente, definimos la soluciôn de un problema de planificaciôn. En su forma 
mas sencilla, es simplemente una secuencia de acciones que, ejecutada en el estado ini- 
cial, da como resultado un estado final que satisface el objetivo. Posteriormente, en este 
mismo capitulo, describiremos las soluciones como conjuntos de acciones parcial- 
mente ordenados, siempre que cada secuencia de acciones que respete el orden parcial 
sea soluciôn. 

Expresividad y extensiones 

Las diferentes restricciones impuestas por la representaciôn STRIPS fueron elegidas con 
el deseo de disenar algoritmos mas simples y mas eficientes, sin complicarlo demasia- 
do para poder describir problemas reales. Una de las restricciones mas importantes im¬ 
puestas es que los literales no tengan dependencia funcional de otros atributos. Con esta 
restricciôn, estamos seguros de que dado un problema, todo sistema de accion puede ser 
proposicionalizado, esto es, transformado en una colecciôn finita de representaciones de 
acciones estrictamente proposicionales (véase Capitulo 9). Por ejemplo, en el dominio 
del transporte aéreo para un problema de 10 aviones y cinco aeropuertos, podemos con¬ 
vertir la sentencia Volar(p, desde, hacia) en 10 X 5 X 5 = 250 acciones puramente pro¬ 
posicionales. Los planificadores en los Apartados 11.4 y 11.5 trabajan directamente con 
descripciones proposicionalizadas. Si admitimos simbolos funcionales, podremos cons- 
truir infinitamente muchos mas estados y acciones. 

En los ültimos anos, se ha mostrado claramente que STRIPS no posee expresividad 
suficiente para ciertos dominios reales. Como resultado, muchos lenguajes han sido 
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desarrollados. La Figura 11.1 describe brevemente uno de los mas importantes, el Len- 
adl guaje de Descripcion de Acciones ( Action Description Language, ADL), y la compa¬ 

raciôn con el lenguaje STRIPS. En ADL, la action Volar podria ser escrita como 

Action (Volar(p : Avion, desde : Aeropuerto, hasta : Aeropuerto), 
PrecondÆ» (p, desde ) a (desde A hasta) 

Efecto: - £/; (p, desde) a en (P, hasta)) 

La notaciôn p : Avion en la lista de paramétras es una abreviatura de Aviôn(p) en la sen- 
tencia de precondiciôn; este cambio no anade valor expresivo, pero es mas sencillo de 
leer (también reduce el numéro de posibles acciones proposicionales que pueden ser cons- 
truidas). La precondiciôn ( desde A hasta) expresa el hecho de que un vuelo no discu- 
rre entre un aeropuerto y él mismo. Esto podria no haber sido expresado suficientemente 
por Strips. 

Los diferentes formalismos de planificaciôn usados en la IA han sido sistematiza- 
dos dentro de una sintaxis estândar llamada Lenguaje de Definiciôn de Dominios para 
la Planificaciôn ( Planning Domain Définition Language, o PDDL). Este lenguaje per- 
mite a los investigadores el intercambio y la comparaciôn de problemas y resultados. 
PDDL incluye sublenguajes para Strips, ADL y para las redes jerârquicas de tareas que 
veremos en el Capitulo 12. 


Lenguaje Strips 

Lenguaje ADL 

Solo literales positivos en estados: 

Pobre a Desconocido 

Literales positivos y negativos en estados: 

-i Rico a -iFamoso 

Hipôtesis de Mundo Cerrado: 

Los literales no mencionados son falsos 

Hipôtesis de Mundo Abierto: 

Los literales no mencionados son desconocidos 

El efecto de P a ->Q significa anadir P 
y eliminar Q 

El efecto de P a -i Q significa anadir P 
y ~^Q y eliminar -p y Q 

Solo literales simples en objetivos: 

Rico a Famoso 

Variables cuantificadas en objetivos: 

3x En (Pj, x) a En(P 2 , x) es el objetivo de tener 

P i y P 2 en el mismo lugar 

Los objetivos son conjunciones: 

Rico a Famoso 

Se permiten conjunciones y disyunciones 
en los objetivos: 

-i Pobre a (Famoso v Inteligenté) 

Los efectos son conjunciones 

Se permiten efectos condicionales: 
cuando P: E significa que E es un efecto 
solo si P es satisfecho 

No tiene infraestructura para soportar 
igualdades 

Predicados de igualdad (x = y) son admisibles 

No tiene infraestructura para soportar tipos 

Las variables pueden tener tipos, 
como (p: Avion) 

Figura 11.1 Comparaciôn de lenguajes STRIPS y ADL para la representaciôn de problemas de 
planificaciôn. En ambos casos, los objetivos se comportan como las precondiciones de una accion 
sin parâmetros. 
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CONSTRICCIONES 
DE ESTADO 


Tanto la notaciôn STRIPS como ADL son adecuadas para muchos dominios reales. 
Las subsecciones que siguen muestran algunos ejemplos. Sin embargo, existen algunas res- 
tricciones signifie ativas. La mas obvia es que no pueden representar de un modo natural 
las ramificaciones de las acciones. Por ejemplo, si existe gente, paquetes o motas de pol- 
vo en el avion, todas éstas cambiarân de localizaciôn cuando el avion vuele. Podemos re¬ 
presentar estos cambios como el efecto directo de volar, considerando que parece mas 
natural representar la localizaciôn del contenido del avion como la consecuencia lôgica de 
la localizaciôn del mismo. Veremos otros ejemplos de estados con constricciones de es- 
tado en la Secciôn 11.5. Los sistemas de planificaciôn clâsica no son capaces de tratar pro- 
blemas de requisitos: el problema de no representar circunstancias que puedan causar que 
una acciôn fracase. Veremos como tratar con los requisitos en el Capitulo 12. 


Ejemplo: transporte de carga aéreo 

La Figura 11.2 muestra como un problema de transporte de carga aéreo lleva asociado 
procesos de carga y descarga entre aviones que vuelan entre diferentes destinos. El pro¬ 
blema puede ser definido con très acciones: Carga, Descarga, y Vuelo. Las acciones 
afectan a dos predicados: Dentro(c, p ) significa que la carga c esta dentro del avion p, 
y En(x, a) significa que el objeto x (tanto avion como carga) esta en el aeropuerto a. 
Notemos que la carga no esta En cualquier sitio cuando se encuentra Dentro de un avion 
concreto, por tanto En realmente significa «disponible para su uso en una localizaciôn 
determinada». El siguiente plan es una soluciôn al problema: 

\Carga{C v P v SFO), Volar(P v SFO, JFK), 

Carga(C 2 , P 2 , J F K), Volar(P 2 ,JFK, SFO)] 

Nuestra representaciôn es estrictamente STRIPS. En particular, se permite que un avion 
vuele hacia y desde el mismo aeropuerto. Literales de tipo desigualdades, podrian pré¬ 
venir este tipo de situaciones. 


Iniciar (En(C v SFO ) a En(C 2 , JFK) a En(P l , SFO) a En(P 2 , JFK) 
a CargaiCj a Carga(C 2 ) a AviôniP : ) a AviôniP 2 ) 
a Aeropuerto(JFK) a Aeropuerto(SFO) 

Objetivo(En(C t , JFK) a En(C 2 , SFO)) 

Acciôn ( Cargar(c, p, a), 

Precond: En (c, a) a En(p, a) a Carga(c) a Aviôn(p) a Aeropuerto(a) 
Efecto: -En (c, a) a Dentro (c, p) 

Acciôn ( Descargar(c, p, a), 

Precond: Dentro ( c, p) a En (p, a) a Carga(c) a Aviôn(p) a Aeropuertoia) 
Efecto: En (c, a) a -i. Dentro (c, p)) 

Acciôn ( Volar(p , desde, hasta), 

Precond: En (p, desde) a Aviôn(p) a Aeropuerto(desde) a Aeropuerto(hasta) 
Efecto: -En ( p, desde) a En ( p, hasta)) 


Figura 11.2 Problema Strips de transporte de carga aérea entre aeropuertos. 
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MUNDO DE 
LOS BLOQUES 


Ejemplo: el problema de la rueda de recambio 

Considérese el problema de cambiar una rueda pinchada. De modo mas preciso, el ob- 
jetivo es tener la rueda de repuesto montada correctamente en el eje del coche, mientras 
que el estado inicial consiste en la meda pinchada sobre el eje y la meda de repuesto en 
el maletero. Para exponerlo sencillamente, nuestra version del problema es abstracta, sin 
considerar otras complicaciones. Simplemente contamos con cuatro acciones: sacar la 
rueda del maletero, quitar la rueda pinchada del eje, colocar la rueda nueva en el eje y 
dejar el coche sin vigilancia durante la noche. Se asume que el coche queda aparcado 
en un barrio peligroso, de modo que el efecto de dejarlo sin vigilancia puede ser el que 
roben las ruedas. 

La descripciôn ADL del problema se muestra en la Figura 11.3. Notemos que es es- 
trictamente proposicional. Vamos mas alla que con el simple uso de lenguaje STRIPS, 
pues se usan precondiciones negativas, -i En(Deshinchada, Eje), para la acciôn Colo- 
car(Repuesto, eje). Esto podrfa ser evitado mediante la utilizaciôn de Despejar(eje), como 
veremos en el siguiente ejemplo. 


Iniciar (En(Deshinchada, Eje) a En(Repuesto, maletero)) 

Objetivo(En(Repuesto, eje)) 

Acciôn ( Quitar ; ( Repuesto, maletero), 

Precond: En(Repuesto, maletero) 

Efecto: -> En(Repuesto, maletero) a En{Repuesto, Sitelo)) 

Acciôn ( Quitar , (Deshinchada, Eje), 

Precond: En(Deshinchada, Eje), 

Efecto: -> En(Deshinchada, Eje) a En(Deshinchada, Sueloj) 

Acciôn ( Colocar(Repuesto, eje). 

Precond: En{Repuesto, Suelo) a -<En(Deshinchada, Eje) 

Efecto: -> En(Repuesto, Suelo) a En(Repuesto, Eje)) 

Acciôn ( DejarloDeNoche, 

Precond: 

Efecto: ~^En(Repuesto, Suelo) a -i En(Repuesto, Eje) a -i En(Repuesto, maletero) 
a -i En(Deshinchada, Suelo) a -i En(Deshinchada, Eje)) 


Figura 11.3 El problema simplificado de la rueda de repuesto. 


Ejemplo: el mundo de los bloques 

Uno de los mas famosos dominios de planificaciôn es conocido como el mundo de los 
bloques. Este dominio consiste en un conjunto de bloques con forma de cubo situados 
en un tablero 3 . Los bloques pueden ser amontonados, pero ünicamente podemos situar 
uno sobre otro. Un brazo mecânico puede cambiar bloques de sitio, tanto sobre el ta- 


3 El mundo de los bloques ulilizado en planificaciôn es mucho mas simple que la version SHRDLU ’S, mos- 
Lrada en el Aparlado 1.3. 
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blero como sobre otros bloques. El brazo puede tomar solo un bloque por cada instan¬ 
te de tiempo, de modo que no puede tomar uno si aün no ha soltado otro anterior. El ob- 
jetivo sera construir uno o mas montones de bloques, que quedarân especificados en 
términos de cuântos bloques estân sobre cuântos otros bloques. Por ejemplo, podriamos 
tener un objetivo que fuese colocar un bloque A sobre otro B y uno C sobre otro D. 

Usemos Sobre{b, x) para indicar que el bloque b se encuentra sobre x, donde x pue¬ 
de ser también otro bloque sobre el tablero. La accion para mover el bloque b desde el 
lugar x hasta el lugar y sera Mover(b, x, y). Una de las precondiciones para poder mover 
b es que ningün otro bloque se encuentre sobre él. En una lôgica de primer orden, esta 
idea podria ser expresada como -G x Sobre(x, b) o, altemativamente, Vx -i Sobre(x, b). 
Estas podrian ser establecidas como precondiciones en ADL. Podemos expresarlas den- 
tro de un lenguaje STRIPS, sin embargo, anadiendo un nuevo predicado, Despejar(x), que 
es verdadero siempre que ningün bloque esté sobre x. 

La accion Mover cambia un bloque b desde x hasta y si tanto b como y estân «des- 
pejados». Después de que el movimiento sea ejecutado, x estarâ despejado pero y no lo 
estarâ. Una descripciôn formai de Mover en Strips es: 

Acciôn{Mover (b, x, y), 

Precond: Sobreib, x) a Despejar(b) a Despejar(y), 

Efecto: Sobreib, y) a Despejar(x) a -> Sobre(b, x) a - >Despejar(y )) 

Desafortunadamente, esta accion no mantiene Despejar adecuadamente cuando x o y se 
encuentran sobre el tablero. Cuando x = Tablero, esta accion tiene el efecto Despe- 
jar(Tablero), pero el tablero no debe estar vacio; de igual modo cuando y = Tablero. Para 
determinar estas situaciones, podemos hacer dos cosas. En primer lugar, incluimos otra 
accion para mover un bloque b desde x al tablero: 

Accion ( MoverSobreTablero(b, x), 

Precond: Sobreib, x) a Despejar(b)), 

Efecto: Sobreib. Tablero ) a Despejar(x) a -‘Sobreib, x)) 


Iniciar(Sobre(A, Tablero ) a Sobre(B, Tablero) a Sohre{C, Tablero) 
a Bloque(A) a Bloque (B) a Bloque(C) 
a Despejar{A) a Despejar(B) a Despejar(C)) 

Objetivo (SobreiA, B) a SobreiB. C)) 

Accion ( Mover (b, x, y), 

Precond: Sobreib, x) a Despejar(b) a Despejariy) a Bloque ib) a 
(b 4 1 x) a ib =£ y) a (x ¥= y), 

Efecto: Sobreib, y) a Despejar(x) a -iSobre(b, x) a -i Despejariy)) 
Accion iMoverSobreTablero{b, x), 

Precond: Sobreib, x) a Despejœjb) a Bloque ib) a ib # x), 
Efecto: Sobreib, Mesa) a Despejarix) a -i Sobreib, x)) 


Figura 11.4 Un problema de planificaciôn en el mundo de los bloques: construir una torre de très 
bloques. Una soluciôn es la secuencia \Mover(B, Tablero, C), MoveijA, Tablero, B )]. 
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En segundo lugar, tomaremos la interpretaciôn de Despejar(b) como «existe un espacio 
vacio sobre b para trasladar un bloque». Bajo esta interpretaciôn, Despejar(Tablero ) 
siempre sera correcto. El ünico problema es que nada le impide al planificador usar 
Mover(b, x, Tablero) en lugar de MoverSobreTablero(b, x). Podriamos vivir con este pro¬ 
blema (nos llevarâ a un espacio de büsqueda mayor que el necesario, pero no se tendrân 
respuestas incorrectas) o podemos incluir el predicado Bloque y anadir Bloque(b) a Blo- 
que(y) como precondiciôn de Mover. 

Finalmente, existe el problema de las acciones espurias taies como Mover(B, C, C), 
que tiene efectos contradictorios. Es comün ignorar taies problemas, porque casi nunca 
provocan planes incorrectos. El enfoque correcto anade precondiciones de tipo desigual- 
dad como se muestra en la Figura 11.4. 


11.2 Planificacion con busquedas en espacios 
de estado 


Prestemos atenciôn a los algoritmos de planificacion. El enfoque mas sencillo es el uso 
de una büsqueda en un espacio de estados. Es conocido que las descripciones de las ac¬ 
ciones en un problema de planificacion especifican tanto las precondiciones como los 
efectos, por tanto son posibles las büsquedas en ambas direcciones: büsquedas hacia- 
adelante desde el estado inicial o büsquedas hacia-atrâs desde el estado final, como se 
muestra en la Figura 11.5. También usaremos las representaciones de objetivos y acciones 
explicitas para derivar automâticamente heurfsticas efectivas. 


Büsquedas hacia-delante en el espacio de estados 

La planificacion mediante büsquedas hacia-delante en el espacio de estados es similar 
al enfoque que veiamos en el Capitulo 3 para resolver problemas. Algunas veces se le 
progresiôn llama planificacion de progresiôn, porque mantiene una direcciôn de avance. 

Comenzamos en el estado inicial del problema, considerando secuencias de accio¬ 
nes hasta que encontremos una secuencia que alcance un estado objetivo. La formula¬ 
tion de problemas de planificacion como problemas de büsqueda en un espacio de 
estados es como sigue: 

• El estado inicial de la büsqueda es el estado inicial del problema de planificacion. 
En general, cada estado sera un conjunto de literales simples y positivos; los lite- 
rales que no aparecen expresados se asume que son falsos. 

• Las acciones que son aplicables en un estado son todas aquellas cuyas precondi¬ 
ciones son satisfechas. El estado résultante de una acciôn es generado anadiendo 
literales positivos y eliminando los negativos. Notemos que una simple funciôn su- 
cesor trabaja para todos los problemas de planificacion (una consecuencia de uti- 
lizar una representaciôn de acciôn explicita). 

• El test de objetivos chequea si el estado satisface el objetivo del problema de pla- 
nificaciôn. 
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(a) 


(b) 


En(Pi, A) 


Volar(P,, A, B) 


En(Pi, B) 
En(P 2 , A) 


V y 

Volar(P 2 , A, B) 


f En(Pf, A) ï 




En(P 2 , B) 


En(P„ A) 




1 En(P 2 , B) \ 


Volar (P,, A, B) 

. S 


En(PB) 
En(P 2 , A) 




Volar(P 2 , A, B) 



En(P\, B) 
En(P 2 , B) 


Figura 11.5 Dos enfoques para alcanzar un plan, (a) Busqueda en el espacio de estados hacia- 
delante (progresion), comenzando en el estado inicial y usando las acciones del problema para avan- 
zar hacia el estado objetivo. (b) Büsqueda en el espacio de estados hacia-atrâs (regresion): una 
büsqueda en el espacio de creencias (véase Apartado 3.6) comenzando en los estados objetivo y 
utilizando el inverso de las acciones para rastrear hacia atrâs hasta el estado inicial. 


• El coste del paso entre acciones es tipicamente 1 . Aunque podria ser sencillo per- 
mitir diferentes costes para diferentes acciones, esto es rara vez utilizado por los 
planificadores STRIPS. 

Recalquemos que, en ausencia de simbolos funcionales, el espacio de estados de un pro¬ 
blema de planificaciôn es finito. Por tanto, cualquier algoritmo de büsqueda en grafos 
que es completo (por ejemplo, A* *) sera un algoritmo de planificacion completo. 

Desde los inicios de la investigaciôn en planificacion (en torno a 1961) hasta la ac- 
tualidad (1998) se ha constatado que la büsqueda hacia-delante en un espacio de esta¬ 
dos es ineficaz en la prâctica. No es dificil argumentar esta posicion con varios resultados, 
simplemente revisando la Seccion 11.1. En primer lugar, las büsquedas hacia-delante no 
son capaces de tratar con el problema de acciones irrelevantes, todas las posibles acciones 
aplicables son consideradas desde el estado en el que nos encontramos. En segundo lu¬ 
gar, este enfoque râpidamente queda empantanado sin una buena heuristica. Conside- 
remos el problema del transporte de carga aéreo con los siguientes datos, 10 aeropuertos, 
cada aeropuerto posee cinco aviones y 20 piezas para ser cargadas. El objetivo es tras- 
ladar toda la carga desde el aeropuerto A al B. Existe una solucion muy simple para este 
problema: descargar las 20 piezas en uno de los aviones en A, volar hasta B y procéder 
a su descarga. Sin embargo, encontrar la solucion puede ser dificil porque el factor pro- 
medio de ramificacion es enorme: cada uno de los 50 aviones puede volar a otros nue- 
ve aeropuertos, y cada uno de los 200 paquetes pueden ser tanto descargados (si antes 
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RELEVANCIA 


REGRESIÔN 


fueron cargados) o cargados dentro de cada avion en un aeropuerto (si se encuentran des- 
cargados). En promedio, tenemos unas 1.000 acciones posibles, de modo que el ârbol 
de büsqueda para encontrar la solucion obvia tiene del orden de 1.000 41 nodos. Es évi¬ 
dente que una heuristica adecuada al problema es necesaria para hacer este tipo de büs¬ 
queda eficiente. Discutiremos algunas posibles heuristicas después de presentar la 
büsqueda hacia-atrâs. 


Büsquedas hacia-atrâs en el espacio de estados 

Las büsquedas hacia-atrâs en el espacio de estados fueron descritas brevemente como 
parte de büsquedas bidireccionales en el Capitulo 3. Destacamos, en primer lugar, que 
la büsqueda hacia-atrâs puede ser dificil de implementar cuando el estado objetivo es 
descrito por un conjunto de constricciones mâs que siendo expllcitamente especifi- 
cado. En particular, no es siempre obvio como generar una descripcion de los posi¬ 
bles estados predecesores del conjunto de estados objetivo. Veremos que la 
representaciôn de un problema de planificacion mediante STRIPS se simplifica por- 
que el conjunto de estados puede ser descrito por el conjunto de literales que deben 
verificarse en ellos. 

La principal ventaja de las büsquedas hacia-atrâs es que nos permiten considerar so- 
lamente acciones relevantes. Una acciôn es relevante para una secuencia encadenada 
de objetivos si alcanza un conjunto de ellos. Por ejemplo, el objetivo en nuestro proble¬ 
ma de transporte de carga aérea considerando 10 aeropuertos, es tener 20 piezas de car- 
ga en el aeropuerto R, o de manera mâs précisa: 

En(C v B) a En( C 2 , B) a ... a En ( C 20 , B) 

Ahora consideremos el conjunto En(C v B). Trabajando hacia-atrâs, podremos obtener 
acciones que tengan ésta como efecto. Por ejemplo, una de ellas: Descargar(C 1 , p, B), 
donde el avion p no estâ especificada. 

Notemos que existen muchas acciones irrelevantes que pueden dirigirnos hacia un 
estado objetivo. Por ejemplo, podemos volar en un avion vacio desde JF K hasta SFO; 
esta acciôn alcanza un estado objetivo desde un estado predecesor en el que el avion 
estâ en JFK y todo el conjunto de objetivos es satisfecho. Una büsqueda hacia-atrâs que 
permita acciones irrelevantes serâ compléta pero mucho menos eficiente. Si la solucion 
existe, serâ encontrada por una büsqueda hacia atrâs que permita solamente acciones re¬ 
levantes. La restricciôn a acciones relevantes se traduce en büsquedas hacia atrâs que tie- 
nen un factor de ramificaciôn mucho menor que en las büsquedas hacia delante. Por 
ejemplo, nuestro problema de carga aérea tiene cerca de 1.000 acciones dirigidas hacia 
delante desde el estado inicial pero solo 20 acciones hacia atrâs desde el estado objetivo. 

Las büsquedas hacia atrâs son conocidas habitualmente como planificacion por 
regresiôn. La principal pregunta en la planificacion por regresiôn es: ^Cuâles son los 
estados desde los cuales iniciar una acciôn determinada que nos dirige hacia el objeti¬ 
vo? La descripcion de estos estados se conoce como la regresiôn de un objetivo a través 
de la acciôn. Para ver como hacer esto, consideremos el ejemplo del transporte de car¬ 
ga aéreo. Tenemos el siguiente objetivo: 

En(C l , B) a En(Ç 2 , B) a. . .a En(C 20 , B) 
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y la acciôn relevante Descargar(C l , p, B), que alcanza el primer término. La acciôn sera 
adecuada solamente si sus precondiciones son satisfechas. Sin embargo, cualquier es- 
tado predecesor debe incluir las precondiciones siguientes: Dentro(C v p ) a En(p, B). Sin 
embargo, el subconjunto En{C v B) no deberia ser cierto en el estado predecesor 4 . De este 
modo, la descripciôn precedente es 

Dentro(C 1 , p) a En(p, B) a En(C 2 , B) a ... a En(C 20 , B) 

Ademâs de insistir en que las acciones alcancen algunos literales deseados, debemos in- 
sistir en que las acciones no desliagan ningün literal deseado. Una accion que satisfaga 
consistera dicha restricciôn es llamada consistente. Por ejemplo, la accion Cargar(C 2 , p) podria 

no ser consistente con el objetivo actual, porque podria negar el literal En(C 2 , B). 

Dadas definiciones de relevancia y consistencia, podemos describir el proceso ge¬ 
neral de construcciôn de predecesores mediante büsquedas hacia-atrâs. Sea la descrip¬ 
ciôn de un objetivo G, y supongamos que A sea una accion que es relevante y consistente. 
El correspondiente predecesor es como sigue: 

• Cualquier efecto positivo de A que aparezca en G es eliminado. 

• Cada precondiciôn literal de A es anadida, a no ser que ya apareciese. 

Cualquiera de los algoritmos de büsqueda estândar pueden ser usados para llevar ade- 
lante la büsqueda. Se finaliza el proceso cuando la descripciôn de un predecesor gene- 
rada es satisfecha por el estado inicial del problema de planificaciôn. En el caso de 
primer-orden, la satisfacciôn puede requérir la sustituciôn por variables en la descrip¬ 
ciôn del precedente. Por ejemplo, la descripciôn del precedente en el pârrafo anterior es 
satisfecha por el estado inicial 

Dentro(C l , P i2 ) a En(P u , B) a En(C 2 , B) a ... a En(C 00 , B) 

sustituyendo {plP n \. La sustituciôn debe ser aplicada a las acciones que se dirigen ha- 
cia el objetivo, produciendo la soluciôn [Descarga(C v P l2 , 5)]. 


Heurfsticas para la büsqueda en el espacio de estados 

Se ha indicado previamente que tanto para que algoritmos de büsqueda hacia-delante 
como hacia-atrâs sean eficientes deben utilizar una funciôn heuristica adecuada. Re- 
cordemos del Capitulo 4 que una funciôn heuristica estima la distancia desde un esta¬ 
do al objetivo; en la planificaciôn STRIPS, el coste de cada acciôn es 1, de modo que 
la distancia es el nümero de acciones. La idea bâsica es observar los efectos de las ac¬ 
ciones y los objetivos que deben ser alcanzados y estimar cuântas acciones son nece- 
sarias para alcanzar todos los objetivos. Encontrar el nümero exacto es un problema 
NP-completo, pero es posible encontrar razonables estimaciones en muchos casos sin 
demasiado gasto computacional. Podrfamos, de igual modo, ser capaces de derivar una 
heuristica admisible, esto es, que no sobrestime. Podriamos usar A* para encontrar so- 
luciones ôptimas. 


4 Si el subobjetivo fuese verdadero en el estado predecesor, la accion podria aün dirigirse hasta el estado ob¬ 
jetivo. Por otro lado, taies acciones son irrelevantes porque no hacen el objetivo verdadero. 
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INDEPENDENCIA 
DE SUB-0BJETIV0S 


Existen dos enfoques que deben ser mencionados. El primero consiste en derivar un 
problema aproximado desde las especificaciones del problema dado, tal como se des- 
cribiô en el Capitulo 4. El coste de la soluciôn ôptima del problema aproximado (que su- 
ponemos sencillo de resolver) nos da una heuristica admisible para el problema original. 
El segundo enfoque pretende usar un simple algoritmo divide-y-vencerâs. Este plantea- 
miento asume la independencia de sub-objetivos: el coste de resolver una secuencia de 
sub-objetivos es aproximadamente la suma de los costes que supone resolver cada uno 
de los sub-objetivos independientemente. La hipotesis de la independencia de sub-obje¬ 
tivos puede ser optimista o pesimista. Se llama optimista cuando existen interacciones 
negativas entre los subplanes de cada sub-objetivo, por ejemplo, cuando una action en 
un sub-plan hace fracasar el objetivo a alcanzar por otro sub-plan. Es pesimista, y por 
tanto inadmisible, cuando los sub-planes contienen acciones redundantes, por ejemplo, 
dos acciones que podrian ser reemplazadas por una action sencilla en un plan conjunto. 

Consideremos cômo obtener problemas aproximados a partir de uno dado. Si tene- 
mos disponibles las representaciones explicitas de las precondiciones y de los efectos, 
el proceso consistirâ en la modification de dichas representaciones (comparar este en¬ 
foque con los problemas de büsqueda, donde la funcion sucesora es una caja negra). La 
idea mas simple para calcular un problema aproximado es mediante la élimination de 
todas las precondiciones de las acciones. En esta situation, todas las acciones serân apli- 
cables, y cualquier literal puede ser alcanzado en cada etapa (si existe una action que es 
aplicable, en caso contrario, el objetivo es imposible). Esto prâcticamente implica que 
el nümero de pasos requeridos para resolver una secuencia de objetivos es el nümero de 
objetivos no satisfechos, prâcticamente pero no totalmente porque (1) puede haber dos 
acciones, cada una de las cuales éliminé el literal del objetivo alcanzado por el otro, y 
(2) alguna action puede alcanzar mültiples objetivos. Si combinamos el problema apro¬ 
ximado junto con la hipotesis de la independencia de sub-objetivos, ambas se encuen- 
tran lejos de que la heuristica résultante sea exactamente el nümero de objetivos no 
satisfechos por alcanzar. 

En algunos casos, una heuristica mas adecuada se obtiene mediante la considération 
de interacciones positivas que surgen de las acciones que permiten alcanzar mültiples 
objetivos. En primer lugar, derivamos el problema aproximado mediante la élimination 
de efectos negativos (véase Ejercicio 11.6). Después, contamos el minimo nümero de 
acciones requeridas taies que la union de los efectos de acciones positivas satisfagan el 
objetivo. Por ejemplo, consideremos 

Objetivo(A a B a C) 

Acciôn(X, Efecto: A a P) 

AcciônfY, Efecto: B a C a Q) 

Acciôn(Z, Efecto: B a P a Q) 

El minimo conjunto que cubre el objetivo {A, B, C) viene dado por las acciones {X, Y), 
de modo que el conjunto que cubre la heuristica devuelve un coste de 2. Esto mejora la 
hipotesis de la independencia de sub-objetivos, cuya heuristica nos da un valor de 3. Exis¬ 
te un pequeno inconveniente: el problema es NP-duro. Un algoritmo simple que cubra 
el conjunto garantiza el retorno de un valor que esté dentro de un orden log n del valor 
minimo verdadero, donde n es el nümero de literales en el objetivo; normalmente fun- 
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ciona bien en la prâctica. Desafortunadamente un algoritmo de este tipo pierde la garantia 
de admisibilidad para la heuristica. 

Es también posible generar problemas aproximados eliminando efectos negativos 
sin eliminar precondiciones. Esto es, si una accion tiene el efecto A a -i B en el pro- 
blema original, tendra el efecto A en el problema aproximado. Esto significa que no 
necesitamos preocuparnos acerca de la interacciones negativas entre sub-planes, por- 
que ninguna accion puede eliminar los literales alcanzados por otra accion. El coste 
de la solucion del résultante problema aproximado da lo que se conoce como heuris¬ 
tica para suprimir listas vacias. La heuristica es bastante précisa, pero ponerla a fun- 
cionar lleva asociado ejecutar un algoritmo de planificaciôn simple. En la prâctica, la 
büsqueda en el problema aproximado es suficientemente râpida como para que el cos¬ 
te merezca la pena. 

Las heuristicas descritas aqui pueden ser usadas tanto en direcciôn de progresion 
como regresiôn. Actualmente, los planificadores de progresion que usan la heuristica para 
suprimir listas vacias marcan la tendencia. Es probable que se produzcan cambios y que 
nuevas heuristicas y nuevas técnicas de büsqueda sean exploradas. Dado que la planifi- 
cacion es exponencialmente dificil 5 , ningün algoritmo sera eficiente para todos los pro¬ 
blemas, pero una gran cantidad de problemas prâcticos pueden ser resueltos con los 
métodos heuristicos mencionados en este capitulo, muchos mas que los que se podian 
resolver solamente hace unos pocos anos. 


11.3 Planificaciôn ordenada parcialmente 


Las büsquedas en el espacio de estados hacia-delante y hacia-atrâs son tipos de planes 
de büsqueda totalmente ordenados. Solo exploran secuencias estrictamente lineales de 
acciones conectadas directamente al inicio o al objetivo. Esto significa que no se puede 
sacar provecho de la descomposicion del problema. Preferiblemente que trabajar sobre 
cada subproblema separadamente, se deben tomar decisiones sobre el orden en que se 
sucedan las acciones desde todos los subproblemas. Preferiremos un enfoque que tra- 
baje en varios sub-objetivos independientemente, los solucione con varios sub-planes, 
y por ültimo, combine el conjunto de sub-planes utilizados. 

Este enfoque présenta la ventaja de flexibilizar el orden en el que se construye el plan. 
Es decir, el planificador puede trabajar sobre «obvias» o «importantes» decisiones pri- 
meramente, antes que estar forzado a trabajar siguiendo las etapas en un orden crono- 
logico. Por ejemplo, un agente planificador que se encuentre en Berkeley y desee viajar 
a Monte Carlo podria primero intentar encontrar un vuelo desde San Francisco a Paris; 
dada informacion acerca de los horarios de partida y llegada, puede ponerse a trabajar 
en los modos de salir y llegar a los aeropuertos. 

iviiNiivio La estrategia general de aplazar una opcion durante la büsqueda se conoce como una 

(.di.ir’Hoi.i.so estrategia de minimo compromiso. No damos una definicion formai, aunque claramente 


5 Técnicamente, la planificaciôn tipo STRIPS es PSPACE-completa a menos que tengan solo precondicio¬ 
nes positivas y solo un literal como efecto (Bylander, 1994). 
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un grado de compromiso es necesario, dado que si no, la büsqueda podrfa no progresar. 
Dejando a un lado esta informalidad, el mrnimo compromiso es un concepto ütil para ana- 
lizar cuândo las decisiones deben llevarse a cabo en cualquier problema de büsqueda. 

Nuestro primer ejemplo concreto sera mas simple que planificar unas vacaciones. 
Consideremos el sencillo problema de ponerse un par de zapatos. Podemos describirlo 
como un problema de planificacion formai como sigue: 

Objetivo (ZapatoDerechoPuesto a ZapatolzquierdoPuesto ) 

Inicio() 

Acciôn(ZapatoDerecho, 

Precond: CalcetwDerechoPuesto, 

Efecto: ZapatoDerechoPuesto) 

Acciôn(CalcetmDerecho, 

Efecto: CalcetwDerechoPuesto) 

Acciôn(ZapatoIzquierdo, 

Precond: CalcetmlzquierdoPuesto, 

Efecto: ZapatolzquierdoPuesto) 

Acciôn(CalcetînIzquierdo, 

Efecto: CalcetmlzquierdoPuesto) 

Un planificador debe ser capaz de trabajar con las secuencias de dos-acciones Calce- 
ttnDerecho seguido por ZapatoDerecho para alcanzar el primer conjunto de objetivos, 
y la secuencia Calcetuilzquierdo seguido de Zapatolzquierdo para el segundo conjun¬ 
to. Por tanto, las dos secuencias pueden ser combinadas para cumplir el plan total. En 
este desarrollo, el planificador manipularâ las dos secuencias independientemente, sin 
preocuparse de si una accion pertenece a una secuencia o a otra. Cualquier algoritmo de 
planificacion que pueda conjuntar dos acciones dentro del mismo plan sin necesidad de 
conocer cuâl de ellas es previa a la otra, se conoce como planificador de primer or- 
den. La Figura 11.6. nos muestra un plan de orden parcial que constituye la solucion para 
el problema de los zapatos y los calcetines. Destaquemos que la solucion es represen- 
tada como un grafo de acciones y no como una secuencia. Destaquemos también que 
las acciones «dummy», las acciones Inicio y Final, marcan el principio y el final del plan. 
Llamarlas acciones simplifica el tratamiento del problema, porque de este modo cada 
una de las etapas del plan es una accion. La solucion de orden-parcial se corresponde 
con seis posibles planes de orden total; cada uno de ellos se conoce como una lineali- 
zaciôn del plan de orden parcial. 

El planificador de orden-parcial puede ser implementado como una büsqueda en el 
espacio de los planes de orden parcial (desde ahora, los llamaremos ünicamente «planes»), 
Esto es, comenzaremos con un plan vacfo. Posteriormente consideraremos formas de re- 
finar este plan hasta que tengamos un plan compléta que resuelve el problema. Las ac¬ 
ciones en esta büsqueda no son acciones en el mundo, sino acciones sobre planes: anadir 
una etapa a un plan, imponer una ordenacion que coloca una accion antes de otra, etc. 

Definiremos el algoritmo POP para procesos de planificacion de orden-parcial. Es 
tradicional escribir el algoritmo POP como un programa autonomo, preferible a la for- 
mulacion de planes de orden parcial como ejemplos de problemas de büsqueda. Esto nos 
permitirâ centrarnos sobre los refinamientos de las etapas del plan que pueden ser apli- 
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Plan de Orden Parcial: Plan de Orden Total: 



Figura 11.6 Un plan de orden parcial para ponerse calcetines y zapatos, y las seis linealizacio- 
nes correspondientes dentro de los planes de orden total. 


cados, en lugar de preocuparnos de cômo los algoritmos exploran el espacio. De hecho, 
una amplia variedad de métodos de büsqueda heuristicos poco fundamentados pueden 
ser aplicados una vez que el problema de büsqueda es formulado. 

Recordemos que los estados de nuestros problemas de büsqueda serân mayoritaria- 
mente planes inacabados. Para evitar confusiones con los estados del mundo, nos refe- 
riremos a planes mas que a estados. Cada plan tiene los siguientes cuatro componentes, 
donde los dos primeros definen las etapas del plan y los dos ültimos sirven como fun- 
cion de contabilidad para determinar como los planes pueden ser extendidos: 


RESTRICCIONES 

ORDENADAS 


• Un conjunto de acciones que confeccionen las etapas del plan. Estas son tomadas 
del conjunto de acciones en el problema de planifie acion. El plan «vacio» contie- 
ne simplemente las acciones Iniciar y Finalizar. Iniciar no posee precondiciones 
y tiene como efectos los literales en el estado inicial del problema de planifie acion. 
Finalizar no tiene efectos y tiene como precondiciones los literales del objetivo 
del problema de planifie acion. 

• Un conjunto de restricciones ordenadas. Cada limitacion ordenada es de la for¬ 
ma A < B, la cual se lee como «A antes de B» y significa que la acciôn A debe 
ser ejecutada en algün momento antes de B, pero no necesariamente en el estado 
inmediatamente anterior. Las restricciones ordenadas deben describir un orden par¬ 
cial apropiado. Cualquier ciclo (del tipo A < B y B < A) représenta una contra- 
dicciôn, de modo que una limitacion de orden no podrâ ser anadida a un plan si 
créa un ciclo. 
















































































































































































444 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


RELACIONES 

CAUSALES 

ALCANCES 


• Un conjunto de relaciones causales. Un enlace causal entre dos acciones A y B 

en un plan es escrito como A _ E^. B y se lee como «A alcanza B a través de p». 

Por ejemplo, el enlace causal 


CalcetînDerecho 


CalcetùiDerechoPuesto 


ZapatoDerecho 


CONFLICTOS 


PRECONDICIONES 

ABIERTAS 


expresa que CalcetînDerechoPuesto es un efecto de la action CalcetînDerecho y 
una precondiciôn para ZapatoDerecho. También nos informa de que CalcetînDe- 
rechoPuesto debe ser cierto durante el tiempo de accion que discurre desde la ac¬ 
cion CalcetînDerecho a la accion ZapatoDerecho. En otras palabras, el plan no 
podria ser extendido mediante la aportaciôn de una nueva accion C que crease un 

conflicto con el enlace causal. Una accion C entraria en conflicto con A _ B 

si C tiene el efecto ~>p, y si C pudiera (de acuerdo con el conjunto de restriccio- 
nes ordenadas) traer A antes que B. Algunos autores lo llaman intervalos de pro- 

tecciôn de enlaces causales, porque el link A _ B protégé a p de ser negado 

a lo largo del intervalo que va desde A hasta B. 

• Un conjunto de precondiciones abiertas. Una precondiciôn es abierta si no es al- 
canzada por ninguna accion en un plan. Los planificadores trabajan para reducir 
el conjunto de precondiciones abiertas al conjunto vatio, sin introducir contra- 
dicciones. 


Por ejemplo, el plan definitivo de la Figura 11.6 tiene los siguientes componentes: 


Acciones: { CalcetînDerecho, ZapatoDerecho, Calcetînhquierdo, Zapatolzquierdo, 
Iniciar, Finalizar ( 

Relaciones de orden: { CalcetînDerecho < ZapatoDerecho, 

Calcetînlzquierdo < Zapatolzquierdo } 


Enlaces: { CalcetînDerecho Calcetin Derec ^ oPuesto ZapatoDerecho, 

Calcetînlzquierdo CalcetînI ^% doPuesto Zapatolzquierdo, 
ZapatoDerecho ZapatoDerechoPuesto FinaUzar> 

Zapatolzquierdo ZapatobjjderdoPuesto FinaUzar] 


PrecondicionesAbiertas:{ | 


PLAN CONSISTENTE 



Definimos un plan consistente como un plan en el cual no hay ciclos en las restriccio- 
nes ordenadas y no existen conflictos con los enlaces causales. Un plan consistente con 
precondiciones no abiertas es una soluciôn. El lector debe estar convencido del si- 
guiente hecho: cada linealizaciôn de una soluciôn de orden-parcial es una soluciôn de 
orden-total cuya ejecuciôn desde el estado inicial alcanza el estado objetivo. Esto sig- 
nifica que podremos extender la nociôn de «ejecuciôn de un plan» de planes de orden 
total a planes de orden parcial. Un plan de orden parcial es ejecutado por la elecciôn de 
alguna de las acciones posibles. Veremos en el Capitulo 12 que la flexibilidad disponi¬ 
ble para un agente cuando ejecuta un plan puede ser ütil si el entorno no coopéra. La 
flexibilidad en la ordenaciôn también hace mas sencillo combinar pequenos planes den- 
tro de otros mayores, porque cada uno de los pequenos puede reordenar sus acciones para 
evitar conflicto con otros planes. 
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Ahora estamos preparados para formular el problema de büsqueda que POP resuel- 
ve. Comenzaremos con una formulaciôn adecuada para problemas de planificaciôn pro- 
posicional, dejando para mas tarde las complicaciones derivadas de formulaciones de 
primer orden. Como es habituai, la definiciôn incluye el estado inicial, las acciones y la 
evaluacion del objetivo. 

• El plan inicial contiene Iniciar y Finalizar, la restriccion de orden Iniciar < Fi- 
nalizar, sin enlaces causales y todas las precondiciones en Finalizar como pre- 
condiciones abiertas. 

• La funcion sucesora de manera arbitraria selecciona una precondiciôn abierta p so¬ 
bre una accion B y généra un plan sucesor para cada posible modo de selecciôn con- 
sistente de una accion A que alcance p. La consistencia es impuesta como sigue: 

1. El enlace causal A _ L L> S y la restriccion de orden A < B son anadidos al plan. 

A puede ser una accion que ya existe en el plan o una nueva. Si es nueva, se 
anade al plan junto a las condiciones Iniciar < A y A < Finalizar. 

2. Resolvemos conflictos entre el nuevo enlace causal y el resto de acciones exis- 
tentes y entre la accion A (si es nueva) y el resto de enlaces causales existentes. 

Un conflicto entre A _IL, B y C es resuelto haciendo que C ocurra en algün mo- 

mento fuera de la protecciôn del intervalo, tanto anadiendo B < C o C < A. 

• La evaluacion del objetivo chequea si un plan es una soluciôn para el problema de 
planificaciôn original. Como solamente son generados planes consistentes, la eva- 
luaciôn del objetivo simplemente necesita que no existan precondiciones abiertas. 

Recordemos que las acciones consideradas por los algoritmos de büsqueda bajo esta for¬ 
mulaciôn son etapas de refinamiento de planes mas que acciones reales del propio domi- 
nio. El coste del camino es irrelevante, estrictamente hablando, porque lo ünico que nos 
preocupa es el coste total de las acciones reales en el plan llevado a cabo. Sin embargo, es 
posible especificar una funcion de coste del camino que refleje los costes reales del plan: 
computamos 1 por cada accion real anadida al plan y 0 para todo el resto de etapas de re¬ 
finamiento. De este modo, g(n), donde n représenta un plan, sera igual al nümero de ac¬ 
ciones reales en el plan. Una estimaciôn heuristica h ( n ) puede también ser usada. 

A primera vista, uno podrfa pensar que la funcion sucesora deberfa incluir suceso- 
res para cada p abierta, y no simplemente para uno de ellos. Esto podrfa ser redundan- 
te e ineficaz, sin embargo, por la misma razôn, los algoritmos de satisfacciôn de 
restricciones no incluyen sucesores para cada variable posible: el orden en el que con- 
sideremos las precondiciones abiertas (como el orden en el que consideramos variables 
CSP) es conmutativo ( véase Apartado 5.2). De este modo, podemos elegir una ordena- 
ciôn arbitraria y aün tener un algoritmo completo. La elecciôn del orden correcto pue¬ 
de llevarnos a una büsqueda mas râpida, pero todas las ordenaciones finalizan con el 
mismo conjunto de soluciones candidatas. 

Ejemplo de planificaciôn de orden parcial 

Veamos como POP resuelve el problema de la rueda de repuesto de la Secciôn 11.2. La 
descripciôn del problema es repetida en la Ligura 11.7. 
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Iniciar ( En(Deshinchada, Eje) a EniRepuesto, Maletero )) 

Objetivo(En(Repuesto, Eje)) 

Acciôn ( Quitar(Repuesto, Maletero), 

Precond: EniRepuesto, Maletero) 

Efecto: ->En(Repuesto, Maletero) a En{Repuesto, Suelo)) 

Acciôn (Qultar(Deshinchada, Eje), 

Precond: EniDeshinchada, Eje), 

Efecto: -> En(Deshinchada, Eje)/\ EniDeshinchada, Suelo)) 

Acciôn ( Colocar(Repuesto, Eje), 

Precond: En{Repuesto, Suelo) a -EniDeshinchada, Eje), 

Efecto: -> En(Repuesto, Suelo) a En{Repuesto, Eje)) 

Acciôn {DejarloDeNoche, 

Precond: 

Efecto: -^EniRepuesto, Suelo) a -i En(Repuesto, Eje) a -^EniRepuesto, Maletero) 
a -i EniDeshinchada, Suelo) a -i. EniDeshinchada, Eje)) 


Figura 11.7 Description del problema simplificado de la rueda de repuesto. 


La büsqueda de una soluciôn comienza con el plan inicial, que contiene una acciôn 
Iniciar con el efecto EniRepuesto, Maletero) a EniDeshinchada, Eje) y una acciôn Fi- 
nalizar con la ünica precondiciôn EniRepuesto, Eje). Enfonces, generamos sucesores 
mediante la elecciôn de una precondiciôn abierta sobre la que trabajar (irrevocable - 
mente) y la elecciôn de diferentes acciones posibles para alcanzarlo. Hasta ahora, no 
nos preocupamos acerca de una funciôn heuristica que nos ayude en la toma de estas 
decisiones; aparentemente tendremos elecciones arbitrarias. La secuencia de eventos 
es como sigue: 

1. Seleccionar la ünica precondiciôn abierta de Finalizar, esto es, EniRepuesto, Ma¬ 
letero). Elegir la ünica acciôn aplicable, ColocaijRepuesto, Eje). 

2. Seleccionar EniRepuesto, Suelo) precondiciôn de Colocai jRepuesto, Eje). Ele¬ 
gir la ünica acciôn aplicable, QuitaijRepuesto, Maletero) para lograrlo. El plan 
résultante se muestra en la Figura 11.8. 


En(Repuesto, Maletero) Quitar(Repuesto, Maletero) 


\ 


Iniciar 

En{Repuesto, Maletero) EniRepuesto, Suelo) 

EniDeshinchada, Eje) —tEniDeshinchada, Eje) 

Colocar(Repuesto,Eje) 

EniRepuesto, Eje) 

Finalizar 


Figura 11.8 Un plan de orden parcial incompleto para el problema de repuesto, después de se¬ 
leccionar acciones para las primeras dos precondiciones abiertas. Las cajas representan acciones, 
las precondiciones a la izquierda y los efectos a la derecha. (Los efectos son omitidos, excepto para 
el de la acciôn Iniciar.) Las fléchas oscuras representan enlaces causales protegiendo la proposi¬ 
tion que indica la flécha. 
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3. Seleccionar ->En{Deshinchada, Eje), precondicion de Colocar(Repuesto, Eje). 
En sentido opuesto, seleccionar la acciôn DejarloSinProtecciônNoche en lugar 
de la acciôn Quitar{Repuesto, Eje). Destacamos que DejarloSinProtecciônNo- 
che también tiene el efecto ->En{Repuesto, Suelo), lo cual significa que entra en 
conflicto con el enlace causal 

Quitar(Repuesto, Maletero) En{Re i lllt>,t0 > Slltlo ' > ColocarjRepuesto, Eje) 

Para resolver el conflicto anadimos una limitaciôn de orden colocando Dejar¬ 
loSinProtecciônNoche antes de QuitarjRepuesto, Maletero). El plan résultante 
es mostrado en la Figura 11.9 (/ ; Por qué esto resuelve el conflicto y por qué no 
existe otro modo de resolverlo?) 



/ 


_ l _ 

DejarloSinProtecciônNoche 


—i En(Desinchada, Eje) 

—i En(Deshinchada, Suelo) 
—'En(Repuesto, Eje) 

-' En{Repuesto, Suelo) 
En(Repuesto, Maletero) 


Figura 11.9 El plan después de seleccionar DejarloSinProtecciônNoche con la acciôn -*En(Des- 
hinchada, Eje). Para evitar un conflicto con el enlace causal QuitartRepuesto, Eje) que protégé 
En(Repuesto, Suelo). DejarloSinProtecciônNoche queda restringido a ocurrir antes de Quitar(Re- 
puesto, Maletero), como es indicado por la flécha discontinua. 


4. La ünica precondicion abierta que permanece en este momento es EnlRepues- 
to, Maletero). La ünica acciôn que puede alcanzarla es la acciôn Iniciar, pero 
el enlace causal entre Iniciar y Quitar{Repuesto, Maletero) esta en conflicto con 
-i EnjRepuesto, Maletero), efecto de DejarloSinProtecciônNoche: no se puede 
ordenar antes que Quitar {Repue sto, Maletero), porque ya existe una restricciôn 
de orden antes de Quitar(Repuesto, Maletero). De este modo, estamos forzados 
a volver hacia atrâs, eliminar la acciôn Quitar{Repuesto, Maletero) y los dos ül- 
timos enlaces causales, regresando al estado de la Figura 11.8. En esencia, el pla- 
nificador ha demostrado que DejarloSinProtecciônNoche, no funciona como una 
forma de cambiar una rueda. 

5. Consideremos de nuevo -*En{Deshinchada, Eje), precondicion de Colocar(Re- 
puesto, Eje). En este momento, seleccionamos Quitar(Deshinchada, Eje). 

6 . Una vez mas, seleccionamos En(Repuesto, Rueda) precondicion de Quitar{Re- 
puesto, Maletero) y seleccionar Iniciar para alcanzarlo. Esta vez no existen 
conflictos. 

7. Seleccionar En{Deshinchada, Eje) precondicion de Quitar(Deshinchada, Eje), 
y elegir Iniciar para alcanzarlo. Esto nos da un plan completo, consistente (en 
otras palabras, una soluciôn) como mostramos en la Figura 11.10. 
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En(Repuesto, Matetero) [Quitar(Repuesto, Maletero) 

/ 


\ 


En{Desinchada, Ejé) 


\ 

Sut 

la, £ 

/ 


Iniciar 

En(Repuesto, Maletero) En(Repuesto, Suelo) 

En(Desinchada, Eje) —i En(Deshinchada, Eje) 

Colocar(Repuesto, Eje) 

En{Repuesto, Eje) 

Finalizar 


Quitar(Deshinchada, Eje) 


Figura 11.10 La solution final al problema de la rueda de repuesto. Notemos que QuitariRepuesto, 
Maletero) y Quitar(Deshinchada, Eje), puede ser hecho en cualquier orden si son completados an¬ 
tes con la action Colocar(Repuesto, Eje). 


Aunque este ejemplo es muy simple, ilustra algunos de los puntos fuertes de la planifi- 
caciôn de orden-parcial. En primer lugar, los enlaces causales nos llevan pronto a la poda 
de porciones del espacio de büsqueda que, por causa de conflictos irresolubles, no con- 
tiene soluciones. En segundo lugar, la soluciôn en la Figura 11.10 es un plan de orden- 
parcial. En este caso la ventaja es pequena, porque solamente existen dos posibles 
linealizaciones; sin embargo, un agente podria agradecer la flexibilidad, por ejemplo, si 
la rueda tiene que ser cambiada en la mitad de una carretera con trâfico denso. 

El ejemplo también apunta a algunas posibles mejoras que podrian ser hechas. Por 
ejemplo, existe duplicaciôn de esfuerzo: Iniciar se enlaza con QuhaiiRepuesto, Male¬ 
tero) antes que el conflicto cause un retroceso y sea enfonces desconectado incluso aun¬ 
que no esté implicado en el conflicto. Es entonces conectado de nuevo y la büsqueda 
continüa. Esta situaciôn es tipica de retrocesos cronolôgicos y podria estar atenuada por 
retrocesos dirigidos a dominios. 

Planificaciôn de orden parcial con variables 
independientes 

En esta secciôn, consideraremos las complicaciones que pueden surgir cuando POP es 
usado con représentation de acciones de primer orden que incluyen variables. Supon- 
gamos que tenemos un problema en un mundo de bloques (Figura 11.4) con las pre- 
condiciones abiertas Sobre(A, B) y la acciôn: 

Acciôn ( Mover ( b, x, y), 

Precond: Sobre(b, x) a Despejar(b) a Despejar(y), 

Efecto: Sobreib, y) a Despejar(x) a ~<Sobre(b, x) a -<Despejar(y)) 

Esta accion alcanza Sobre(A, B) porque el efecto Sobre{b, y) uni fie a Sobre(A, B) con la 
sustitucion {b/A, y/B). Aplicando esta sustitucion en la accion, nos queda: 

Acciôn ( Mover {A, x, B), 

Precond: Sobre(A, x) a DespejarÇA ) a Despejar(B), 

Efecto: Sobre(A, B) a Despejar{x) a ->Sobre(A, x) a -^Despejar(B)) 

Esto nos déjà la variable x sin explicitar. Es decir, la acciôn nos habla de mover un blo¬ 
que A desde algün lugar, sin decir cuâl. Este es otro ejemplo del ültimo principio de com- 
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promiso: podemos retrasar la toma de decision hasta que alguna otra etapa en el plan lo 
haga por nosotros. Por ejemplo, supongamos que tenemos Sobre(A, D) en le estado ini- 
cial. Enfonces la acciôn lniciar puede ser usada para alcanzar SobreiA, x), vinculando 
x a D. Esta estrategia que espera mas informaciôn antes de fijar x es normalmente mas 
eficiente que intentarlo para cualquier valor posible de x y hacer regresiones para cada 
una de las que fracase. 

La presencia de variables en las precondiciones y en las acciones complica los pro- 
cesos en la detecciôn y resoluciôn de conflictos. Por ejemplo, cuando Mover {A, x, B) 
es anadido al plan, necesitaremos una relaciôn causal 

Mover (A, x, B ) s " ,v<iA > B} Finalizar 


RESTRICCIONES 
DE DESIGUALDAD 


Si existe otra acciôn M 2 con efecto ->Sobre(A, z), enfonces M 1 entra en conflicto solo si 
z es B. Para acomodar esta posibilidad, extendemos la representaciôn de planes con el 
fin de incluir un conjunto de restricciones de desigualdad de la forma z =/= X donde z 
es una variable y X otra variable o una constante. En este caso, podrfamos resolver el 
conflicto anadiendo z F B. lo que significa que las extensiones futuras al plan pueden 
instanciar z a cualquier valor excepto a B. En cualquier momento que apliquemos una 
sustituciôn al plan, debemos aseguramos que las desigualdades no contradicen la susti- 
tuciôn. Por ejemplo, una sustituciôn que incluya x/y entra en conflicto con la inecua- 
ciôn x # y. Este tipo de conflictos no pueden ser resueltos, por tanto el planificador debe 
ejecutar regresiones en su desarrollo. 

Un ejemplo mas exhaustivo de la planificaciôn POP con variables en el mundo de 
los bloques viene dado en la Secciôn 12.6. 


Heurfsticas para planificaciôn de orden parcial 

Comparado con la planificaciôn de orden total, la planificaciôn de orden parcial posee 
una clara ventaja por su capacidad de descomponer problemas en subproblemas. Tie- 
ne también la desventaja de que no représenta los estados directamente, de modo que 
es mas dificil estimar cuânto de alejado esta un plan de orden parcial de alcanzar un 
objetivo. 

La heuristica mas obvia es el recuento del nümero de precondiciones abiertas dis¬ 
tintas. Esto puede ser mejorado mediante la eliminaciôn del nümero de precondiciones 
abiertas que se ajustan a los literales en el estado lniciar. En un caso de orden total, esto 
sobrestima el coste cuando existen acciones que alcanzan mültiples objetivos y subes¬ 
tima el coste si existen interacciones negativas entre etapas del plan. La siguiente sec¬ 
ciôn présenta un enfoque que nos permite obtener heurfsticas mas adecuadas para un 
problema aproximado. 

La funciôn heuristica es usada para seleccionar qué plan refinar. Dada esta elecciôn, 
el algoritmo généra sucesores basados en la selecciôn de una ünica precondiciôn abier- 
ta para trabajar sobre ella. En el caso de la selecciôn variable en algoritmos de satis- 
facciôn de restricciones, esta selecciôn tiene un impacto importante sobre la eficiencia. 
La heuristica mas restrictiva de CSPs puede ser adaptada para algoritmos de planifi¬ 
caciôn y funcionar adecuadamente. La idea es seleccionar la condiciôn abierta que pue- 
da ser satisfecha por el menor nümero de caminos. Existen dos casos especiales para 
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esta heuristica: primera, si una condicion abierta no puede ser alcanzada por ninguna 
accion, la heuristica la seleccionarâ. Esta es una buena estrategia porque la temprana 
deteccion de imposibilidad puede ahorrar un gran trabajo perdido. Segundo, si una con¬ 
dicion abierta puede ser alcanzada de un ünico modo, debe ser seleccionada porque la 
decision es inévitable y podria proporcionar restricciones adicionales sobre otras op- 
ciones aün sin ser hechas. Aunque la computacion compléta del nümero de formas de 
satisfacer cada condicion abierta es costosa y no siempre merece la pena, los experi- 
mentos demuestran que trabajar con estos dos casos especiales proporciona una agili- 
zacion sustanciosa. 


11.4 Grafos de planificacion 


Todas las heuristicas que hemos sugerido para planificacion de orden parcial y total pue- 
den sufrir imprecisiones. Esta seccion muestra como una estructura especial llamada gra- 
fo de planificacion puede ser usada para dar mejores estimaciones heuristicas. Estas 
heuristicas pueden ser aplicadas a cualquiera de las técnicas de büsqueda que hemos vis- 
to hasta ahora. Alternativamente, podemos extraer una solucion directamente del grafo 
de planificacion, usando un algoritmo especializado llamado Graphplan. 
nivelés Un grafo de planificacion consiste en una secuencia de niveles que corresponden 

a escalones de tiempo en el plan, y donde el nivel 0 es el estado inicial. Cada nivel con- 
tiene un conjunto de literales y un conjunto de acciones. A grandes rasgos, los litera- 
les son todos aquellos que pueden ser ciertos en cualquiera de las etapas, dependiendo 
solamente de las acciones ejecutadas en las etapas previas. También a grandes rasgos, 
las acciones son todas aquellas que pueden tener todas sus precondiciones satisfechas 
en cualquiera de las etapas, dependiendo de cuâles sean los literales sobre los que re- 
almente actüan. Decimos a «grandes rasgos», porque el grafo de planificacion sola¬ 
mente registra un restringido subcobjunto de posibles interacciones negativas entre sus 
acciones; por tanto, se puede ser optimista acerca del mmimo nümero de etapas tem¬ 
porales que se requieren para que un literal sea correcto. Sin embargo, el nümero de 
etapas en el grafo de planificacion proporciona una buena estimacion sobre la dificultad 
de alcanzar desde el estado inicial un literal dado. De manera mas importante, el gra¬ 
fo de planificacion es definido de tal manera que puede ser construido muy eficiente- 
mente. 

Los grafos de planificacion funcionan solamente en problemas de planificacion pro- 
posicional, (aquellos sin variables). Como mencionamos en la Seccion 11.1, tanto las 
representaciones STRIPS como ADL pueden ser proposicionalizadas. Para problemas 
con gran cantidad de objetos, esto podria convertirse en un desbordamiento del nüme¬ 
ro de esquemas de accion. Dejando esto a un lado, los grafos de planificacion han 
demostrado ser efectivas herramientas para solucionar problemas de planificacion com- 
plejos. 

Ilustraremos el tema de los grafos de planificacion con el siguiente ejemplo (ejem- 
plos mas complejos llevarian asociados grâficos que no cabrfan en la pagina). La Figura 
11.11 nos muestra un problema, y la Figura 11.12 nos muestra su grafo de planificacion. 


GRAFO DE 
PLANIFICACION 
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Iniciar (Tener(Pastel)) 
Objetivo{Tener(Pastel) a Comido(Pastel)) 
Action ( Comer(PasteI) 

Precond: Tener(Pastel) 

Efecto: -PTener{Pastel ) -> Comido(PasteI) 
Action (Cocinar(Pastel) 

Precond: -i Tener(Pastel) 

Efecto: Tener(Pastel) 


Figura 11.11 El problema de «tener y comer pastel». 


Tener(Pastel) « 


HComerPastel 


< 


' Comido(Pastel) 1 


Tener{Pastel) 
—i Tener{Pastel) 

Comido(Pastel) 
1 Comido(Pastel) 



y | CocinarPasteil ^ 

^ ^ Tener(Pastel) 
^—i Tener^Pastef) 
^ ComerPastel] ^^ 

-□- Comido(Pastef) 


Comido(Pastel) 

Comido(Pastef) 


Figura 11.12 Grafo de planificaciôn del problema «tener y comer pastel» del nivel S 2 . Los rec- 
tângulos indican acciones (los pequenos cuadrados indican acciones persistentes) y las lîneas rectas 
indican precondiciones y efectos. Los enlaces de exclusion mutua son representados como curvas 
grises. 


ACCIONES 

PERSISTENTES 


EXCLUSION MUTUA 


Comenzaremos con el nivel S 0 , que représenta el estado inicial del problema. Conti¬ 
nuâmes con la acciôn A 0 , en la que consideramos todas las acciones cuyas precondicio¬ 
nes se satisfagan en el nivel previo. Cada acciôn esta conectada con sus precondiciones 
en S 0 y sus efectos en S v en este caso introduciendo dos nuevos literales en 5, que no 
estaban en S 0 . 

El grafo de planificaciôn necesita un modo de representar tanto la falta de acciôn como 
la acciôn. Esto es, necesita el équivalente a los axiomas del marco en el câlculo situado 
que permitan que un literal permanezea siendo verdad desde una situaciôn a la siguien- 
te si no existe acciôn que lo altéré. En un grafo de planificaciôn esto se logra con un 
conjunto de acciones persistentes. Para cada literal positivo y negativo C, anadimos al 
problema una acciôn persistente con la precondiciôn C y el efecto C. La Figura 11.12 mues- 
tra una acciôn «real» Comer{Pastel) enA 0 , junto a dos acciones persistentes dibujadas como 
pequenas cajas cuadradas. 

El nivel A 0 contiene todas las acciones que podrfan ocurrir en el estado S 0 , pero solo 
registra de manera importante los conflictos entre las acciones que podrian prevenirles 
de suceder conjuntamente. Las lineas grises en la Figura 11.12 indican enlaces de ex¬ 
clusion mutua. Por ejemplo, Comer(Pastel) se excluye mutuamente con la persistencia 
de Tener(Pastel) o de -^Comer(Pastel). Veamos como los enlaces de exclusion mutua 
son computados. 


























452 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


El nivel S, contiene todos los literales que podrfan resultar de escoger cualquier sub- 
conjunto de acciones en A 0 . También contiene enlaces de exclusion mutua (lineas grises) 
que informan de los literales que podrian no aparecer juntos, pese a la élection de las ac¬ 
ciones. Por ejemplo, Tener{Pastel) y C omer{Pasteï) son mutuamente independientes; 
esto es, segün la selecciôn de acciones en A 0 , una u otra podria ser solution, pero no am- 
bas. En otras palabras, .S) représenta estados mültiples, al igual que una büsqueda de re- 
gresiôn en el espacio de estados, y los enlaces mutuamente excluyentes son restricciones 
que definen el conjunto de posibles estados. 

Continuaremos de este modo, alternando entre el estado de nivel 5, y el nivel de ac¬ 
tion A t hasta que alcancemos un nivel donde dos niveles consecutivos sean idénticos. 

ESTABiuzADo En esta situation, decimos que el grafo esta estabilizado. Cada nivel posterior sera idén- 

tico, hasta que la expansion sea innecesaria. 

Lo que obtenemos con esto es una estructura donde cada nivel A t contiene todas las 
acciones que son aplicables en S t , junto con restricciones que nos indican qué parejas de 
acciones no pueden ser ejecutadas juntas. Cada nivel 5, contiene todos los literales que 
podrian obtenerse de cualquier posible eleccion de acciones en A t _ v junto con las res¬ 
tricciones que especifican las parejas de literales que no son posibles. Es importante ha- 
cer notar que el proceso de diseno de un grafo de planification no requiere eleccion entre 
acciones, lo que podria llevarnos a una büsqueda combinatoria. En lugar de eso, se re- 
gistra la imposibilidad de ciertas selecciones usando enlaces mutuamente excluyentes. 
La complejidad de construir grafos de planification es de orden polinomial bajo, de- 
pendiente del nümero de acciones y literales, mientras que el espacio de estados tiene 
orden exponencial en términos del nümero de literales. 

Definiremos ahora enlaces mutuamente excluyentes entre acciones y literales. Una 
relation mutuamente excluyente ocurre entre dos acciones en un nivel dado si cualquiera 
de las très condiciones siguientes se cumplen: 

• Efectos inconsistentes : una action niega el efecto de la otra. Por ejemplo, Co- 
mer{Pastel ) y la persistencia de Tener(PasteI ) tienen efectos inconsistentes porque 
no coinciden sus efectos. 

• Interferencia : uno de los efectos de una de las acciones es la négation de una pre¬ 
condiciôn de la otra. Por ejemplo, Comer(Pastel) interfiere con la persistencia de 
Tener(PasteI ) mediante la négation de sus precondiciones. 

• Necesidades que entran en competencia : una de las precondiciones de una action 
es mutuamente excluyente con una precondiciôn de la otra. Por ejemplo, Coci- 
nar{Pasteï) y Comer(Pastel) son mutuamente excluyentes porque ambas compi- 
ten sobre el valor de la precondiciôn de Tener{Pastel). 

Una relation de exclusion mutua sucede entre dos literales en el mismo nivel, si uno es 
la négation del otro o si cada posible par de acciones que podrian alcanzar los literales 
son mutuamente excluyentes. A esta condition se le llama soporte inconsistente. Por 
ejemplo, Tener(Pastel) y C omer{Pastel) son mutuamente excluyentes en S l porque la üni- 
ca forma de alcanzar Tener(Pastel), la action persistente, es mutuamente excluyente con 
la ünica forma de alcanzar Comido{Pastel). En S 2 los dos literales no son mutuamente 
excluyentes porque hay otros modos de alcanzarlos, tal como Cocinar(Pastel) y la per¬ 
sistencia de Comido(Pastel), que no son mutuamente excluyentes. 
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COSTE DE NIVEL 


GRAFO DE 

PLANIFICACIÔN 

SERIAL 


NIVEL MÂXIMO 


NIVEL SUMA 


NIVEL DE CONJUNTO 


Grafos de planificaciôn para estimaciôn de heurfsticas 

Un grafo de planificaciôn, una vez construido, es una fuente rica en informaciôn acer- 
ca de un problema. Por ejemplo, un literal que no aparece en el nivel final del grafo no 
puede ser alcanzado por ningûn plan. Esta observaciôn puede se usada en büsquedas 
hacia atrâs como se muestra a continuaciôn: cualquier estado conteniendo un literal 
inalcanzable tiene un coste h(n) = °o. De manera similar, en planificaciones de orden par- 
cial, cualquier plan con una condiciôn abierta inalcanzable tiene un h(n) — °°. 

Esta idea puede plantearse de un modo mas general. Podemos estimar el coste que 
supone alcanzar cualquier literal del objetivo como el nivel en el cual aparece prime - 
ramente el grafo de planificaciôn. Lo llamaremos coste de nivel del objetivo. En la 
Figura 11.12, Tener(Pastel ) tiene coste de nivel 0 y Comido{Pastel) tiene coste de ni¬ 
vel 1. Es sencillo mostrar (Ejercicio 11.9) que estas estimaciones son admisibles para 
objetivos individuales. La estimaciôn puede nos ser muy buena, sin embargo, los gra¬ 
fos de planificaciôn permiten varias acciones en cada nivel mientras la heuristica 
compute simplemente niveles y no el nümero de las acciones. Por esta razôn, es co- 
mün usar un grafo de planificaciôn serial para las heurfsticas. Un grafo serial exige 
que solo una acciôn pueda ocurrir en una etapa de tiempo dada; esto se logra anadiendo 
enlaces de exclusion mutua entre cada par de acciones excepta acciones persistantes. 
Los costes de nivel extraidos de grafos seriales son frecuentemente estimaciones ra- 
zonables de costes reales. 

Para estimar el coste de una secuencia de objetivos, existen très enfoques simples. 
La heuristica de nivel mâximo simplemente toma el coste del mâximo nivel de cual- 
quiera de los objetivos; esto es admisible pero no necesariamente preciso. La heuristi¬ 
ca de nivel suma (asumiendo la hipôtesis de independencia de objetivos) devuelve la 
suma de los costes de los niveles objetivo. Esto no es admisible pero funciona bien en 
la prâctica en problemas que son en buena parte descomponibles. Es mas preciso que 
la aplicaciôn de heurfsticas de nümero de objetivos insatisfechos presentada en la Sec- 
ciôn 11.2. En nuestro problema, la estimaciôn heuristica de la secuencia de objetivos 
Tener(Pastel ) a Comido{Pastel ) sera 0 + 1 = 1, mientras que la respuesta correcta es 2. 
Sin embargo, si eliminamos la acciôn Cocinar(Pastel), la estimaciôn podrfa ser 1, pero 
la secuencia de objetivos séria imposible. Finalmente, la heuristica de nivel de conjunto 
encuentra el nivel en el que todos los literales de la secuencia de objetivos aparecen en 
el grafo de planificaciôn, sin que ningün par de ellos sean mutuamente excluyentes. Esta 
heuristica nos da el valor correcta, 2, para nuestro problema original sin Cocinar(Pas- 
teï). Es mejor que la heuristica de nivel mâximo y ademâs trabaja bien en tareas en las 
que hay buenas relaciones de interacciôn entre subplanes. 

El grafo de planificaciôn, como herramienta de generaciôn de heuristicas adecuadas 
que es, nos permite entenderlo también como un problema aproximado que es eficien- 
temente resoluble. Para entender la naturaleza del problema aproximado, necesitamos 
entender exactamente qué significa que un literal g aparezca en un nivel S I en un grafo 
de planificaciôn. Idealmente, quemamos que fuese una garantia de la existencia de un 
plan la apariciôn de una acciôn de nivel i que alcance g, y de igual modo que si g no apa- 
reciese no existe tal plan. Desafortunadamente, obtener esa garantia es tan dificil como 
resolver el problema de planificaciôn original. De manera que el grafo de planificaciôn 
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simple cumple la segunda condiciôn de la garantia (si g no aparece, no hay plan), pero 
en el caso de que g aparezca, enfonces todo lo que el grafo de planificacion asegura es 
que existe un plan que posiblemente alcance g y sin defectos «obvios». Un defecto obvio 
se define como un error que puede ser detectado considerando dos acciones o dos lite- 
rales en un instante de tiempo (en otras palabras, observando las relaciones de exclusion 
mutua). Podrian existir mas errores no obvios implicando a très, cuatro o mas acciones, 
pero la experiencia ha mostrado que no merece la pena el esfuerzo computacional que 
supone seguir el rastro de estos posibles errores. Es un resultado similar al que se mos- 
trô al estudiar los problemas de satisfacciôn de restricciones, donde era preferible com- 
putar 2-consistencias antes de la büsqueda de soluciones, pero no tan preferible como 
el hecho de computar 3-consistencias o mas (véase Secciôn 5.2). 


El algoritmo Graphplan 

Esta subsecciôn muestra como extraer un plan directamente de un grafo de planificacion, 
preferiblemente al uso del plan como forma de obtener una heuristica. El algoritmo 
Graphplan (Figura 11.13) tiene dos etapas fondamentales, las cuales se alternan den- 
tro del ciclo del algoritmo. Primeramente, se chequea si todos los literales del objetivo 
estân présentes en el nivel actual sin que existan enlaces mutuamente excluyentes entre 
cualquier par de ellos. Si éste es el caso, enfonces una solucion podn'a existir dentro del 
grafo actual, de modo que el algoritmo intentase extraer esa solucion. Ademâs, se ex- 
tiende el grafo anadiendo acciones para el nivel actual y literales de estado para el si- 
guiente nivel. El proceso continüa hasta que una solucion sea encontrada o se compruebe 
que la solucion no existe. 


funciôn Graphplan ( problema ) devuelve solucion o error 

grafo Grafo-Planificaciôn-Inicial (problema ) 
objetivos <— Objetivos [ problema] 

bucle 

si objetivos todos los enlaces mutuamente excluyentes estân en el liltimo nivel del grafo 

entonces 

solucion <— Extraer Solucion (grafo, objetivos, LoNGiTUD(gra/o)) 
si solucion ¥= error entonces devuelve solucion 

en caso contrario si No Solucion Posible (grafo) entonces devuelve error 
grafo *— Grafo-Expand (grafo, problema) 


Figura 11.13 El algoritmo Graphplan alterna entre una etapa de extraccion de solucion y una 
etapa de expansion de grafo. Extraer-SoluciÔN busca si un plan puede ser encontrado, comen- 
zando desde el final y hacia atrâs. Expandir-Grafo anade las acciones para el estado actual y los 
literales de estado para el nivel siguiente. 


Representemos las operaciones de Graphplan en el problema de la rueda de repuesto 
de la Secciôn 11.1. El grafo compléta es mostrado en la Figura 11.14. La primera linea 
del Graphplan inicia el grafo de planificacion en un grafo de un ünico nivel (S 0 ) que 
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Figura 11.14 Grafo de planificacion para el problema de la rueda de repuesto después de la ex¬ 
pansion del nivel S 2 . Los enlaces mutuamente excluyentes son mostrados como lfneas de color 
gris. Solamente algunos de estos enlaces son mostrados, porque el grafo podrfa ser demasiado 
confuso en caso contrario. La solucion es indicada por las lfneas negras de remarcado. 


consiste en cinco literales del estado inicial. El literal objetivo En(Repuesto, Eje ) no esta 
présente en S 0 , de modo que no necesitamos llamar a Extraer-SoluciÔn pues estamos 
seguros de que no hay una solucion. Por ejemplo, Expandir-Grafo anade très acciones 
cuyas precondiciones existen en el nivel S 0 (esto es, todas las acciones excepto Colo- 
car(Repuesto, Eje)), junto con las acciones persistentes para todos los literales en S 0 . Los 
efectos de las acciones son anadidos en el nivel 5]. Expandir-Grafo busca las relacio- 
nes mutuamente excluyentes y las anade al grafo. 

En(Repuesto, Eje) aün no esta présente en S v asi que de nuevo no llamamos a Ex- 
traer-Soluciôn. La llamada a Expandir-Soluciôn nos da el grafo de planificacion mos- 
trado en la Figura 11.14. Ahora que tenemos el conjunto completo de acciones, vale la 
pena pasar a ver algunos ejemplos de relaciones de exclusion mu tua y sus causas: 

• Efectos inconsistentes: Quitar(RepuestoMaletero) es una exclusion mutua con 
DejarloSinProtecciônNoche porque una tiene el efecto En(Repuesto, Eje) y la otra 
su negacion. 

• Interferencia: Quitar(Repuesto Maletero) es una exclusion mutua con Dejarlo¬ 
SinProtecciônNoche porque uno tiene la precondicion En(Pinchada, Eje) y la otra 
tiene su negacion como un efecto. 

• Necesidades en competencia: Colocar(Repuesto, Eje) es una exclusion mutua con 
Quitar{Pinchada, Eje) porque uno tiene En(Pinchada, Eje) como una precondi¬ 
cion y el otro tiene su negacion. 

• Soporte inconsistente: En(Repuesto, Eje) es excluyente mutuamente con En{Pin- 
chada, Eje) en S 2 porque el ünico modo de alcanzar En(Repuesto, Eje) es mediante 
Colocar(Repuesto, Eje), y esto es excluyente mutuamente con la acciôn persistente 
que es el ünico modo de alcanzar En(Pinchada, Eje). De este modo, las relacio¬ 
nes mutuamente excluyentes detectan el conflicto inmediato que aparece al intentar 
colocar dos objetos en el mismo lugar y en el mismo instante de tiempo. 
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En el momento en el que regresamos al inicio del ciclo del algoritmo, todos los litera- 
les del objetivo estân présentes en S 2 , y ninguno de ellos es excluido mutuamente por 
otro. Esto significa que una solucion podria existir, y Extraer-Soluciôn intentarîa en- 
contrarla. En esencia, Extraer-Soluciôn resuelve un CSP booleano cuyas variables son 
las acciones de cada nivel, y los valores de cada variable estân dentro o fuera del plan. 
Podemos usar algoritmos CSP estândares para esto, o podemos définir Extraer-Solu- 
CIÔn como un problema de büsqueda, donde cada estado en la büsqueda contiene un pun- 
tero a un nivel en el grafo de planificacion y un conjunto de objetivos no satisfechos. 
Definimos este problema de büsqueda como sigue: 

• El estado inicial es el ültimo nivel del grafo de planificacion; S n , junto con el con¬ 
junto de objetivos del problema de planificacion. 

• Las acciones disponibles en un estado de nivel S t estân para seleccionar cualquier 
subconjunto de acciones libre de conflicto en A j _ 1 cuyos efectos cubran los obje¬ 
tivos en el estado. El estado résultante tiene nivel S i _ l y tiene como conjunto de 
objetivos las precondiciones para el conjunto seleccionado de acciones. Por «li¬ 
bre de conflicto» queremos decir conjunto de acciones taies que ninguna de ellas 
sean mutuamente excluyentes, y que ninguna de sus precondiciones lo sean tam- 
poco. 

• El objetivo es alcanzar un estado a nivel S 0 tal que todos los objetivos sean satis¬ 
fechos. 

• El coste de cada acciôn sea 1. 

Para este problema particular, comenzamos en S-, con el objetivo En{Repuesto, Eje). La 
ünica elecciôn posible que tenemos para alcanzar el conjunto objetivo es Colocar(Re- 
puesto, Eje). Esto nos lleva a una büsqueda de estado en .S', con objetivos En{Repuesto, 
Suelo) y no -> En(Pinchado, Eje). El primero puede ser alcanzado solo mediante Qui- 
tar(Repuesto, Maletero), y el ültimo o por Quitar(Pinchado, Eje) o DejarloSinProtec- 
ciônNoche. Como DejarloSinProtecciônNoche es mutuamente excluyente con 
Quitar(Repuesto, Maletero), la ünica solucion es elegir Quitar(Repuesto, Maletero) y 
Quitar(Pinchado, Eje). Esto nos lleva a una büsqueda de estado en S 0 con los objeti¬ 
vos En(Repuesto, Maletero) y En{Pinchado, Eje). Ambos estân présentes en el estado, 
de modo que tenemos una solucion: las acciones Quitar(Repuesto, Maletero) y Qui- 
tar(Pinchado , Eje) en el nivel A 0 seguido por Colocar(Repuesto, Eje) en A v 

Conocemos que la planificacion es PSPACE-completa y que el desarrollo del grafo 
de planificacion lleva asociado un orden en tiempo polinomial, de modo que puede dar¬ 
se la situation en que la extracciôn de la solucion sea intratable en el peor de los casos. 
Por tanto, necesitaremos alguna orientation heunstica para la sélection entre acciones 
durante la büsqueda hacia atrâs. Un enfoque que trabaja bien en la prâctica es un algo¬ 
ritmo basado en el coste de nivel de los literales. Para cualquier conjunto de objetivos, 
procedemos en el siguiente orden: 

1. Seleccionar primero el literal con el coste de nivel mâs alto. 

2. Para alcanzar este literal, elegir la acciôn con la precondiciôn mâs sencilla. Esto 
es, elegir una acciôn tal que la suma (o el mâximo) del nivel de coste de sus pre¬ 
condiciones sea la mâs pequena. 
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Interrupciôn de Graphplan 

Hasta ahora, hemos tratado por encima la cuestiôn de la interrupciôn. Si un problema 
no tiene soluciôn /.podcmos asegurar que Graphplan no caerâ en un bucle, extendien- 
do el grafo de planificaciôn en cada iteraciôn? La respuesta es afirmativa, pero la de- 
mostraciôn compléta esta mas alla de las pretensiones de este libre. Aqui, simplemente 
indicamos las ideas principales, particularmente aquellas que arrojen luz sobre los gra- 
fos de planificaciôn en general. 

El primer paso es destacar que ciertas propiedades de los grafos de planificaciôn es- 
tân creciendo o decreciendo monôtonamente. Que «X crezca monôtonamente» signifi- 
ca que el conjunto de Xs en el nivel i + 1, es un superconjunto (no necesariamente propio) 
del conjunto en el nivel i. Las propiedades son las siguientes: 

• Los literales crecen monôtonamente'. una vez que un literal aparece en un nivel 
dado, aparecerâ en todos los niveles siguientes. Esto esta motivado por las accio- 
nes persistentes; una vez que un literal se pone de manifiesto, las acciones de per- 
sistencia ocasionan que permanezca indefinidamente. 

• Las acciones crecen monôtonamente'. una vez que una acciôn aparece en un nivel 
dado, aparecerâ en todos los niveles siguientes. Esto es consecuencia del aumen- 
to de literales; si las precondiciones de una acciôn aparecen en un nivel, entonces 
aparecerân en los niveles siguientes. 

• Los enlaces de exclusion mutua decrecen monôtonamente'. si dos acciones son mu- 
tuamente excluyentes en un nivel dado A f , entonces también lo son para todos los 
niveles previos en los cuales ambas aparezcan. Lo mismo sucede para exclusio- 
nes mutuas entre literales. Puede que no aparezca esta opciôn en las figuras por- 
que las figuras son una simplificaciôn: no presentan ni los literales que no pueden 
cumplirse en el nivel 5j ni las acciones que no pueden ser ejecutadas en el nivel A r 
Podemos ver que «los enlaces mutuamente excluyentes decrecen monôtonamen¬ 
te» es cierto si consideramos que estos literales no son visibles y las acciones son 
excluyentes mutuamente con todos lo demâs. 

La demostraciôn es algo compleja, pero puede ser presentada por casos: si las 
acciones A y B son excluyentes mutuamente en el nivel A i , debe ser por causa de 
uno de los très tipos de exclusion mutua. Los dos primeras, efectos inconsisten- 
tes e interferencia, son propiedades de las acciones, de modo que si las acciones 
son mutuamente excluyentes en A,., lo serân en cualquier nivel. El tercer caso, ne- 
cesidades en competencia, dépende de las condiciones de nivel S, : ese nivel debe 
contener una precondiciôn de A que sea mutuamente excluyente con una precon- 
diciôn de B. Ahora, esas dos precondiciones pueden ser mutuamente excluyentes 
si son negaciones una de otra (en cuyo caso, serian mutuamente excluyentes en 
cada nivel) o si todas las acciones para alcanzar una son mutuamente excluyentes 
con todas las acciones para alcanzar la otra. Pero ya conocemos que las acciones 
disponibles son crecientes monôtonamente, asi que por inducciôn, las relaciones 
excluyentes mutuamente deben estar decreciendo. 

Como las acciones y los literales crecen y las relaciones mutuamente excluyentes de¬ 
crecen, y como solo existe un nümero finito de acciones y literales, cada grafo de pla- 
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nificacion se estabiliza (todos los niveles siguientes serân idénticos). Una vez que un gra- 
fo se ha estabilizado, si le falta uno de los objetivos del problema, o si dos de los obje- 
tivos son mutuamente excluyentes, entonces el problema nunca podrâ ser resuelto, y 
podemos detener el algoritmo Graphplan y determinar el error. Si el grafo se estabili¬ 
za con todos los objetivos y sin relaciones mutuamente excluyentes, pero Extraer- 
Soluciôn fracasa al encontrar una soluciôn, entonces tendremos que extender el grafo 
de nuevo un nümero finito de veces, aunque finalmente podremos parar. Este aspecto de 
interrupciôn es mas complejo y no se mostrarâ aqui. 


11.5 Planifîcacion con logica proposicional 


Vimos en el Capitulo 10 que la planifîcacion puede ser hecha mediante la demostraciôn 
de un teorema del câlculo situado. Este teorema dice que, dado el estado inicial y dados 
los axiomas de estados sucesivos que describen los efectos de las acciones, el objetivo 
sera correcto en una situaciôn resultado de una cierta secuencia de acciones. A princi¬ 
pes de 1969, se pensaba que este enfoque era demasiado ineficiente para encontrar pla¬ 
nes interesantes. Recientes desarrollos en algoritmos de razonamiento eficiente para logica 
proposicional ( véase Capitulo 7) han generado renovado interés en la interpretaciôn de 
la planifîcacion como razonamiento lôgico. 

El enfoque que tomamos en esta secciôn esta basado en la evaluaciôn de la satisfa- 
bilidad de una secuencia logica preferiblemente a la demostraciôn de un teorema. Bus- 
caremos modelos de sentencias proposicionales que sigan la estructura: 

Estado inicial a todas las posibles descripciones de acciôn a objetivo 

La sentencia contendrâ simbolos proposicionales correspondiéndose con cada acciôn po- 
sible; un modelo que satisfaga la sentencia le asignarâ verdad a las acciones que son par¬ 
te de un plan correcto y falso a las otras. Una asignaciôn que se corresponda a un plan 
incorrecto no sera un modelo, porque sera inconsistente con la afirmaciôn de que el ob¬ 
jetivo es correcto. Si el problema de planificaciôn es irresoluble, la sentencia no sera sa- 
tisfecha. 

Descripciôn de problemas de planifîcacion en logica 
proposicional 

El proceso que seguiremos para traducir problemas STRIPS a una formulaciôn en 16- 
gica proposicional es un ejemplo clâsico del ciclo de representaciôn de conocimien- 
to: comenzaremos con lo que parece un conjunto razonable de axiomas, veremos que 
estos axiomas tienen en cuenta modelos espurios no buscados, y escribiremos mas 
axiomas. 

Comencemos con un problema muy simple de transporte aéreo. En el estado ini¬ 
cial (tiempo 0), el avion P x esta en SFO y el avion P 2 en J F K. El objetivo es tener P, 
en JFK y P, en SFO; esto es, los aviones deben cambiar de aeropuerto. En primer lu- 
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gar, necesitamos distinguir simbolos proposicionales para afirmaciones en cada ins¬ 
tante de tiempo. Usaremos superindices para denotar el instante, mas bien el escalôn 
temporal, como hicimos en el Capitulo 7. De este modo, el estado inicial se expre- 
sarâ: 


En(P v SFOf a En(P 2 , JFKf 

Recordemos que EniP^ , SFOf es un simbolo atômico. Como la lôgica proposicional no 
tiene una hipotesis de mundo cerrado, podemos especificar la proposiciones que no son 
correctas en el estado inicial. Si algunas proposiciones son desconocidas en el estado ini¬ 
cial, entonces pueden ser dejadas sin satisfacer (hipotesis de mundo abierto). En este 
ejemplo especificamos: 

~'En(P 1 , JFK)° a i En(P 2 , SFO)° 

El objetivo debe ser asociado con un instante de tiempo particular. Dado que no cono- 
cemos a priori cuântas etapas se necesitan para alcanzar el objetivo, podemos intentar 
afirmar que el objetivo es correcto en el instante inicial T — 0. Esto es, afirmamos 
En(P x , JFKf a En(P 2 , SFOf. Si esto fracasa, lo intentaremos de nuevo en T = 1, y asi 
sucesivamente hasta que alcancemos el plan mas corto posible. Para cada valor de T, la 
base de conocimiento induira solo sentencias cubriendo el intervalo temporal desde cero 
hasta T. Para asegurar que se interrumpe, un limite superior arbitrario, T mix , es impues- 
to. Este algoritmo se muestra en la Figura 11.15. Un enfoque alternativo que évita ten- 
tativas de multiples soluciones es discutido en el Ejercicio 11.17. 


funciôn SATplan (problèmei, T mir ) devuelve solucion o error 
inputs : problema, problema de planificaciôn 

T màx , un limite superior para la longitud del plan 
para T = 0 hasta 7 miSx hacer 

enf, correspondencia <— Traducir a SAT (problema, T) 
asignaciôn Resolvedor SAT ( enf) 
si asignaciôn no es nula entonces 

devuelve ExTRAER-SoLUCiÔN(<K/g«acTO», correspondencia) 
devuelve error 


Figura 11.15 El algoritmo SATplan. El problema de planificaciôn es traducido a sentencias CNF 
en las que el objetivo se pretende alcanzar en un tiempo fijo T y son incluidos axiomas para cada 
estado previo a T. (Los detalles de la traduction son ofrecidos en el texto.) Si el algoritmo de sa- 
tisfabilidad encuentra un modelo, entonces es extraido un plan a partir de sfmbolos proposiciona¬ 
les que refieran acciones y que sean verdaderos en el modelo. Si el modelo no existe, el proceso es 
repetido con el objetivo desplazado a una posicion posterior. 


La siguiente tarea es la de codificar descripciones de accion en lôgica proposicio¬ 
nal. El enfoque mas sencillo es tener un simbolo proposicional para cada accion; por ejem¬ 
plo, Volar(P l , SFO, JFKf es verdad si el avion P 1 vuela de SFO a JF K en el estado 
T = 0. Como en el Capitulo 7, escribimos versiones proposicionales de los axiomas de 
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AXIOMAS DE 
PRECONDICIÔN 


estado-sucesivo desarrollado para el câlculo situado ( véase Capitulo 10). Por ejemplo, 
tenemos 

En(P v JFK) 1 o (En(P v JFK)° a -.( Volar{P v JF K, SFOf a En(P v JF K) 0 )) 

v (Volar(fj, SFO, JFKf a En(P l , SFOf ). (11.1) 

Esto es, el avion P l estarâ en JFK a tiempo 1 si estaba en JFK a tiempo 0 y no ha vola- 
do a otro lugar, o estaba en SFO a tiempo 0 y ha volado a JFK. Necesitaremos uno de 
taies axiomas para cada avion, aeropuerto y tramo temporal. Sin embargo, cada aero- 
puerto adicional anade otra forma de viajar hacia (o desde) un aeropuerto dado y de este 
modo anade mas disyunciones al término del lado derecho de cada axioma. 

Con estos axiomas en juego, podemos utilizar el algoritmo de satisfabilidad para en- 
contrar un plan. Deberia ser un plan que alcanzase el objetivo a instante T = 1, a saber, 
el plan en el que dos aviones cambian el lugar. Ahora, supongamos que la KB es: 

Estado inicial a axiomas de estado-sucesivo a objetivo 1 (11.2) 

lo que afirma que el objetivo es verdadero a tiempo T = 1. Se puede comprobar que un 
modelo de KB es la asignaciôn en la que 

Volar{P v JFK, SFOf y Volar(P 2 , JFK, SFOf 

son verdaderos y todos los otros simbolos de accion son falsos. Hasta aqui, todo correcto. 
/Existcn otros modelos posibles que el algoritmo de satisfabilidad podrfa conocer? Por 
supuesto que si. / Son todos estos modelos planes satisfactorios? No. Considérese el plan 
absurdo especificado por los simbolos de accion 

Volar(P i , SFO, JFK) 0 y Volar{P x , JFK, SFOf y Volar(P 2 , JFK, SFOf 

Este plan es absurdo porque el avion P l comienza en SFO, de modo que la accion Vo- 
lar(P v JFK, SFOf es inviable. Sin embargo, ;el plan es un modelo de la sentencia de la 
Ecuacion (11.2)!, es decir, es consistente con todo lo que hemos die ho hasta ahora acer- 
ca del problema. Para entender por qué, necesitamos mirar mas cuidadosamente qué di- 
cen los axiomas de estado sucesivos (Ecuacion 11.1) acerca de las condiciones cuyas 
precondiciones no son satisfechas. Los axiomas predicen correctamente que nada suce- 
derâ cuando una de estas acciones sea ejecutada (Ejercicio 11.15), pero no dicen nada 
acerca de qué acciones no pueden ser ejecutadas. Para evitar la generaciôn de planes con 
acciones prohibidas, debemos anadir axiomas de precondiciôn estableciendo que para 
que una accion ocurra requiere que sus precondiciones sean satisfechas 6 . Por ejemplo, 
necesitamos: 

Volar(P v JFK, SFOf => En(P l , JFK) 0 

Como esta establecido que En(P l , JFKf es falso en el estado inicial, este axioma ase- 
gura que cada modelo que tenga también Volar(P v JFK, SFOf es falso. Anadiendo axio¬ 
mas de precondiciôn, existe un modelo que satisface todos los axiomas cuando el 
objetivo pretende ser alcanzado a tiempo 1, en concreto el modelo en el que el avion P x 


6 Notemos que anadir axiomas de precondiciôn significa que no necesitamos incluir precondiciones para la 
accion en axiomas de estado-sucesor. 
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AXIOMAS 
DE EXCLUSION 
DE ACCIONES 


REATRICCIONES 
DE ESTADO 


vuela hasta JFK y el P, vue la a S FO. Notemos que esta solucion posee dos acciones pa- 
ralelas, de modo équivalente a utilizar Graphplan o POP. 

Mas sorpresas emergen cuando anadimos un tercer aeropuerto, LAX. Ahora, cada avion 
tiene dos acciones que son legales en cada estado. Cuando utilizamos el algoritmo de sa- 
tisfabilidad, encontramos que un modelo con Volar(P l , SFO, JFK) 0 y Volar(P 2 , JFK, 
SFO)° y Volar(P 2 , JFK, LAX) 0 satisface todos los axiomas. Esto es, el estado-sucesivo y 
los axiomas de precondicion permiten a un avion volar hacia dos destinos a la misma vez. 
Las precondiciones para ambos vuelos de P 2 son satisfechas en el estado inicial; los axio¬ 
mas de estado-sucesivo nos dicen que P 2 estarâ en SFO y en LAX a tiempo 1 ; por tanto 
el objetivo es satisfecho. Evidentemente, debemos anadir mas axiomas para eliminar es¬ 
tas soluciones espurias. Un método es anadir axiomas de exclusion de acciones que pre- 
vengan acciones simultâneas. Por ejemplo, podemos insistir en la exclusion compléta 
anadiendo todos los posibles axiomas de la forma, 

-'(Volar(P 2 , JFK, SFO) 0 a Volar(P 2 , JFK, LAX) 0 ) 

Estos axiomas aseguran que no pueden ocurrir dos acciones al mismo tiempo. Eliminan 
planes espurios, y también fuerzan a que cada plan esté totalmente ordenado. Esto hace 
perder la flexibilidad a los planes ordenados parcialmente; también, mediante el aumento 
de etapas temporales en un plan, el tiempo de computacion puede extenderse. 

En vez de exclusiones complétas, podemos exigir solo una exclusion parcial, esto es, 
descartar acciones simultâneas solo si interfieren con otras. Las condiciones son las mis- 
mas que para las acciones excluyentes mutuamente: dos acciones no pueden ocurrir si- 
multâneamente si una niega una precondicion o el efecto de la otra. Por ejemplo, Volar(P „ 
JFK, SFO) 0 y Volar{P 2 , JFK, LAX) 0 no pueden ocurrir ambas, porque cada una niega la 
precondicion de la otra; por otro lado, Volar(P v SFO,JFK)° y VoIar(P 2 , JFK, SFO) 0 pue¬ 
den ocurrir juntas porque los dos planes no interfieren. La exclusion parcial élimina pla¬ 
nes espurios sin exigir una ordenaciôn compléta. 

Los axiomas de exclusion a veces parecen instrumentos muy contundentes. En lu- 
gar de decir que un avion no puede volar a dos aeropuertos al mismo tiempo, podemos 
exigir simplemente que ningün objeto pueda estar en dos lugares a la vez. 

\/p, x,y, t x F y => ~'(En(p, x) ! a En(p, y) 1 ) 

Este hecho, combinado con los axiomas de estado-sucesivo, implica que un avion no 
puede volar a dos aeropuertos al mismo tiempo. Hechos como este se conocen como 
restricciones de estado. En lôgica proposicional, por supuesto, tenemos que escribir 
todas las instancias que cubren la constricciôn de cada estado. En el problema del ae¬ 
ropuerto, la restriccion de estado basta para descartar todos los planes espurios. Las res¬ 
tricciones de estado frecuentemente son mucho mas compactas que los axiomas de 
exclusion de acciones, pero no son siempre faciles de derivar de la descripciôn Strips 
del problema. 

Resumiendo, la planificaciôn como satisfabilidad comprende la büsqueda de modelos 
de sentencia conteniendo el estado inicial, el objetivo, los axiomas de estado sucesivos, 
los axiomas de precondicion, y por ültimo la acciôn de exclusion de axiomas o las res¬ 
tricciones de estado. Puede mostrarse que esta coleccion de axiomas es suficiente, en el 
sentido de que no hay soluciones espurias. Cualquier modelo que satisfaga la sentencia 




462 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 
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DESiMBOLOS 


proposicional sera un plan vâlido para el problema original, esto es, cada linealizaciôn 
del plan es una secuencia correcta de acciones que alcanza el objetivo. 

Complejidad de codificaciones proposicionales 

El principal inconveniente del enfoque proposicional es el tamano ingente del conoci- 
miento que se généra del problema a partir del problema de planificacion original. Por 
ejemplo, el esquema de accion Volar(p, a v a 2 ) se transforma en 7 X \Planes\ X | Aero- 
puertos\ 2 slmbolos proposicionales diferentes. En general, el nümero total de slmbolos 
de accion viene dado por 7 X \Act\ X 1 0 \ p , donde \Act\ es el nümero de los esquemas 
de accion, \0\ es el nümero de objetos en el dominio, y P es el mâximo nümero de ar¬ 
gumentas de cualquier esquema de accion. El nümero de clâusulas es aün elevado. Por 
ejemplo, con 10 escalones temporales, 12 aviones y 30 aeropuertos, el axioma de ex¬ 
clusion de accion compléta tiene 583 millones de clâusulas. 

Como el nümero de slmbolos de accion es exponencial en el nümero de argumen¬ 
tas del esquema de accion, una solucion podrla ser el intento de reducir el nümero de 
argumentos. Podemos hacer esto tomando prestada una idea de las redes semânticas (Ca- 
pltulo 10). Las redes semânticas usan solo predicados binarios; predicados con un ma- 
yor nümero de argumentos serfan reducidos a un conjunto de predicados binarios que 
describirfan cada argumento por separado. Al aplicar esta idea a un slmbolo de accion 
tal como Volar(P x , SFO, JFK)°, se obtienen très nuevos slmbolos: 

Volar x (P x )°: el avion P l ha volado a tiempo 0 

Volar 2 (SFO)° : el origen del vuelo fue SFO 
Volar 3 (JFK)°: el destino del vuelo fue JFK 

Este proceso, llamado «division de slmbolos» élimina la necesidad de un nümero ex¬ 
ponencial de slmbolos. Ahora solo necesitaremos 7 X \Act\ X P X \0\. 

La division de slmbolos, por ella misma, puede reducir el nümero de slmbolos, pero 
no reduce automâticamente el nümero de axiomas en la Base de Conocimiento. Esto es, 
si cada slmbolo de accion en cada clâusula fuera simplemente reemplazado por el con¬ 
junto de très slmbolos, entonces el tamano total de la Base de Conocimiento podrla per- 
manecer prâcticamente équivalente. La division de slmbolos realmente reduce el tamano 
de la Base de Conocimiento porque algunos de los slmbolos escindidos son irrelevan¬ 
tes a ciertas acciones y pueden ser omitidos. Por ejemplo, consideremos el axioma de 
estado-sucesivo en la Ecuacion 11.1, modificado para incluir LAX y para omitir pre- 
condiciones de accion (las cuales son cubiertas por axiomas de precondiciôn separados): 

En(P l , JFK ) 1 « (En(P l , JFK) 0 a ->Volar(P x , JFK, SFO) 0 a -i VoIar(P l , JFK, LAX) 0 ) 
v (Volar(P v SFO, JFK) 0 v (Volar(P u LAX, JFK) 0 

La primera condicion dice que P x estarâ en JFK si estuviese alll a tiempo 0 y no volase 
desde JFK a cualquier otra ciudad, no importa cuâl. Usando slmbolos divididos, pode¬ 
mos simplemente omitir el argumento cuyo valor no nos interesa: 

En(P x , JFK) 1 aa (En(P v JFK) 0 a AVolar x (P x f a VolarJJFK) 0 )) 
v (Volar x (P x )° a Volar 3 (JFK)°) 
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Notemos que SFO y LAX no son mencionados mas en el axioma. De forma mas gene¬ 
ral, la division de sfmbolos de accion permiten ahora que el tamano de cada axioma de 
estado-sucesivo sea independiente del numéro de aeropuertos. Reducciones similares ocu- 
rren con los axiomas de precondicion y los axiomas de exclusion de accion ( véase Ejer- 
cicio 11.6). Para el caso descrito antes con 10 tramos temporales, 12 aviones y 30 
aeropuertos, el axioma de exclusion compléta es reducida de 583 millones de clâusulas 
a 9.360 clâusulas. 

Existe un inconveniente: la representacion de division-de-simbolos no permite 
acciones paralelas. Consideremos las dos acciones paralelas Volar(P v SFO, JFKf y 
Volar(P 2 , JFK, SFO) 0 . Transformândolos a una representacion dividida, tenemos: 

Volar x (P x f a Volar 2 (SFOf a Volar 3 (JFK)° a 

Volai\(P 2 f a Volar 2 (JFK)° a VolarJSFOf 

No es posible determinar lo que ha sucedido. Sabemos que P x y P 2 volaron, pero no po- 
demos identificar el origen y el destino de cada vuelo. Esto significa que un axioma de 
exclusion compléta debe ser usado, con el inconveniente mencionado previamente. 

Los planificadores basados en la satisfabilidad pueden abordar importantes proble- 
mas de planificacion, por ejemplo, encontrar soluciones optimas de 30 etapas para pro- 
blemas de planificacion en mundos de bloques con docenas de bloques. El tamano de 
la codificaciôn proposicional y el coste de la solucion son problemas fuertemente dé¬ 
pendantes, sin embargo en muchos casos la memoria requerida para almacenar los 
axiomas proposicionales se convierte en un cuello de botella. Una interesante forma de 
plantear este problema ha sido mediante algoritmos de retro-propagacion, taies como 
DPLL, que son muchas veces mejores para la solucion de problemas que los algoritmos 
de büsquedas locales como WalkSAT. Esto es porque la mayoria de los axiomas pro¬ 
posicionales son clâusulas de Horn, las cuales son tratadas de manera eficiente por la 
unidad de propagacion técnica. Esta observacion ha dirigido la investigaciôn hacia el 
desarrollo de algoritmos hibridos combinando büsquedas aleatorias con mecanismos de 
retro-propagacion. 


11.6 Anâlisis de los enfoques de planificacion 


La planificacion es, actualmente, un ârea de gran interés dentro de la IA. Una razon de 
esto es que combina las dos mayores âreas de IA que se han tratado hasta ahora: bûs- 
quedas y lôgica. Esto es, un planificador puede ser visto tanto como un programa que 
busca la solucion o como uno que (constructivamente) proporcione la existencia de una 
solucion. Lo fértil del cmce de ideas desde ambas âreas ha llevado a un avance en la pa- 
sada década de varios ôrdenes de magnitud y un aumento del uso de planificadores en 
aplicaciones industriales. Desafortunadamente, no tenemos una clara comprensiôn de 
qué técnicas trabajan mejor en qué clase de problemas. Muy posiblemente, emerjan 
nuevas técnicas que sobrepasarân a los actuales métodos. 

La planificacion es, en primer lugar, un ejercicio de control de la explosion combi- 
natoria. Si tenemos un nümero p de proposiciones primitivas en un dominio, tendremos 
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OBJETIVOS 

SERIALIZABLES 


2 P estados. Para dominios complejos, p puede crecer mucho. Consideremos que los ob- 
jetos en el dominio tienen propiedades (, localizaciôn, color) y relaciones (en, sobre, en¬ 
tre). Con d objetos en un dominio que mantengan relaciones cada très, tendremos 2' 1 
estados. Podremos concluir que, en el peor de los casos, la planificaciôn es una tarea sin 
solucion. 

En contra de tal pesimismo, la estrategia divide-y-vencerâs puede ser una poderosa 
arma. En el mejor caso (la descomposiciôn compléta del problema) divide-y-vencerâs 
nos ofrece una agilizaciôn exponencial. La descomposibilidad no aporta ventajas, sin em¬ 
bargo, en caso de interacciones negativas entre acciones. Los planifie adores de orden par- 
cial afrontan estos problemas con enlaces causales, un poderoso enfoque de 
representaciôn, pero desafortunadamente cada conflicto debe ser resuelto con una elec- 
ciôn, y las elecciones pueden multiplicarse exponencialmente. Graphplan évita estas 
selecciones durante la fase de constmcciôn del grafo, utilizando enlaces de exclusion mu- 
tua para registrar conflictos sin construir elecciones para resolverlos. SATplan représenta 
un rango similar de relaciones mutuamente excluyentes, pero lo hace mediante el uso 
de la forma general CNF preferible a una estructura especifica de datos. Lo bien o mal 
que vaya dependerâ del solucionador SAT usado. 

Algunas veces es posible resolver un problema eficientemente, aceptando que las 
interacciones negativas pueden ser descartadas. Decimos que un problema tiene sub- 
objetivos serializables si existe un orden de sub-objetivos tal que el planificador pue- 
da alcanzarlos en ese orden, sin tener que anular ninguno de los sub-objetivos alcanzados 
previamente. Por ejemplo, en el mundo de bloques, si el objetivo es construir una torre 
(ejemplo: A sobre B , que se encuentra sobre C, que a su vez esta sobre el Tablero), en¬ 
fonces los sub-objetivos son serializables de abajo-a-arriba: si primeramente situamos 
C sobre el Tablero, no tendremos que deshacer esta meta mientras estamos alcanzando 
el resto de sub-objetivos. Un planificador que usa la estrategia abajo-a-arriba puede so- 
lucionar cualquier problema en el dominio del mundo de bloques sin retro-propagacion 
(aunque puede no encontrar siempre el mejor plan). 

Presentemos un ejemplo complejo: para el agente planificador remoto que coman- 
daba la mision espacial Deep Space One se déterminé que las proposiciones vinculadas 
en la direction de la mision eran serializables. Esto quizâ no es demasiado sorprenden- 
te, porque una nave espacial es disenada por ingenieros para que su control sea lo mas 
sencillo posible (sujeto a otras restricciones). Tomando ventaja de la ordenaciôn seria- 
lizada de objetivos, el agente planificador remoto fue capaz de eliminar muchas de las 
büsquedas. Esto se tradujo en un control de la nave en tiempo real, algo que previamente 
se consideraba imposible. 

Existe mas de un modo de control de explosiones combinatorias. Vimos en el Ca- 
pitulo 5 que hay muchas técnicas para el control de la retro-propagacion en problemas 
que satisfagan restricciones (CSPs), taies como retro-propagacion dependientemente di- 
rigida. Todas estas técnicas pueden ser aplicadas a la planificaciôn. Por ejemplo, ex- 
traer una solucion de un grafo de planificaciôn puede ser formulado como un problema 
CSP booleano cuyas variables establezcan si una acciôn dada deberia ocurrir en un tiem¬ 
po determinado. El CSP puede ser resuelto usando cualquiera de los algoritmos pre- 
sentados en el Capitulo 5. Un método estrechamente relacionado, usado en sistemas 
Blackbox, convierte el grafo de planificaciôn en una expresiôn CNF y posteriormen- 
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te extrae un plan utilizando un solucionador SAT. Este enfoque parece trabajar mejor 
que SATplan, a priori porque el grafo de planificacion ha eliminado ya muchos de los 
estados imposibles y acciones del problema. Funciona también mejor que Graphplan, 
presumiblemente porque una büsqueda de satisfabilidad tal como WalkSAT tiene mu- 
cha mas flexibilidad que una simple büsqueda de retro-propagaciôn que use Graphplan. 

No hay duda de que planificadores taies como Graphplan, SATplan y Blackbox 
han hecho progresar el campo de la planificacion, tanto por la versatilidad de los siste- 
mas de planificacion como por la clarificaciôn a nivel representacional de los temas re- 
lacionados. Estos métodos son, por tanto, inherentemente proposicionales y estân 
limitados a los dominios donde pueden expresarse. (Por ejemplo, problemas logisticos 
con una pequena docena de objetos y de localizaciones, pueden requérir gigabytes de 
almacenamiento para las correspondientes expresiones CNE) Parece probable que se re- 
quieran representaciones de primer orden y nuevos algoritmos que acompanen el pro- 
greso en el area, mientras las estructuras taies como grafos de planificacion continuarân 
siendo ütiles como fuente de heurfsticas. 


11.7 Resumen 


En este capitulo, hemos definido el problema de planificacion en entornos determinis- 
tas, y completamente observables. Describimos las representaciones principales usadas 
para problemas de planificacion y varias estrategias algoritmicas para resolverlos. Los 
elementos que tenemos que recordar son: 

• Los sistemas de planificacion son algoritmos de resoluciôn de problemas que 
operan con representaciones proposicionales explicitas (de primer orden) de es- 
tado y acciones. Estas representaciones hacen posible la obtenciôn de heuristicas 
efectivas y el desarrollo de poderosos y flexibles algoritmos para la resoluciôn de 
problemas. 

• El lenguaje STRIPS describe acciones en términos de sus precondiciones y efec- 
tos y describe el estado inicial y objetivo como secuencias de conjunciones entre 
literales positivos. El lenguaje ADL relaja algunas de estas restricciones, permi- 
tiendo la disyunciôn, la negaciôn y los cuantificadores. 

• Las büsquedas en el espacio de estados pueden operar hacia delante (progresiôn) 
o hacia atrâs (regresiôn). Heuristicas efectivas pueden obtenerse aceptando la hi- 
pôtesis de sub-objetivos independientes y mediante varias aproximaciones del 
problema de planificacion. 

• Los algoritmos de Planificacion de Orden Parcial (POP) exploran el espacio de pla¬ 
nes sin comprometerse con una secuencia de acciones totalmente ordenada. Tra- 
bajando hacia atrâs desde el objetivo y anadiendo acciones para planificar como 
alcanzar cada sub-objetivo. Es particularmente efectivo en problemas en los que 
se puede utilizar una estrategia divide-y-vencerâs. 

• Un grafo de planificacion puede ser construido de manera incrémental, partien- 
do del estado inicial. Cada capa contiene un süper-conjunto de todos los literales 
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que podrfan ocurrir en cada tramo temporal y codifica las relaciones de exclusion 
mutua, las relaciones entre literales o entre acciones que no puedan darse a la vez. 
Los grafos de planificaciôn nos proporcionan ütiles heurfsticas en el espacio de es- 
tados, para planificadores de orden parcial, y pueden ser usados directamente en 
el algoritmo Graphplan. 

• El algoritmo Graphplan procesa el grafo de planificacion, usando una büsqueda 
hacia atrâs hasta extraer un plan. Esto tiene en cuenta ordenaciones parciales en¬ 
tre acciones. 

• El algoritmo SATplan traduce un problema de planificacion en axiomas proposi- 
cionales y aplica un algoritmo de satisfabilidad para encontrar un modelo que se 
correspondu con un plan vâlido. Diferentes representaciones proposicionales han 
sido desarrolladas variando el grado de concision y eficiencia. 

• Cada una de las estrategias de planificacion tiene sus adeptos y no existen consensos 
sobre cuâl es la mejor. La competencia entre planteamientos y lo fértil del cmce 
y combinaciôn de diferentes enfoques se ha traducido en ganancias signifieativas 
en eficiencia para sistemas de planificacion. 



Notas bibliogrâficas e histôricas 

La planificacion en IA emerge de la investigaciôn en areas, como büsquedas en el es¬ 
pacio de estados, demostraciôn de teoremas y teoria de control, y desde las necesidades 
prâcticas en robôtica, organizaciôn y otros dominios. Strips (Fikes y Nilsson, 1971), el 
primero de los grandes sistemas de planificacion, ilustra la interacciôn de dichas in- 
fluencias. Strips fue disenado como un componente para la planificacion software del 
robot Shakey proyectado en el SRI. Su estructura de control total fue modelada en GPS 
General Problem Solver (Newell y Simon, 1961), un sistema de büsqueda en el espacio 
de estados que utilizaba un mecanismo de anâlisis de fines/medios. Strips usaba una ver¬ 
sion del sistema de demostraciôn de teoremas QA3 (Green, 1969b) como una subruti- 
na para establecer la verdad de las precondiciones de las acciones. Lifschitz (1986) ofrece 
précisas definiciones y un anâlisis del lenguaje Strips. Bylander (1992) muestra sim¬ 
ples planificaciones Strips para PSPACE-completos. Fikes y Nilsson (1993) nos ofre- 
cen una retrospectiva histôrica del proyecto Strips y una révision de sus relaciones con 
los esfuerzos mas recientes en planificacion. 

La representaciôn de la acciôn usada por Strips ha sido mas influyente que su es- 
trategia algorftmica. Casi todos lo sistemas de planificacion desde enfonces han usado 
una variante u otra del lenguaje Strips. Desafortunadamente, la proliferaciôn de variantes 
ha hecho las comparaciones necesariamente difîciles. Una mejor comprensiôn de las li- 
mitaciones e intercambios entre formalismos necesitaria mas tiempo. El Lenguaje de Des- 
cripciôn de Acciones, ADL, (Pednault, 1986) relajô algunas de las restricciones en el 
lenguaje Strips e hizo posible tratar problemas mas complejos. Nebel (2000) explora 
esquemas para compilar ADL en Strips. El problema del Lenguaje de Descripciôn de 
dominios o PDL (Ghallab et al., 1998) fue introducido como un sintaxis estandarizada 
para la representaciôn de Strips, ADL y otros lenguajes. PDDL ha sido usado como el 
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INTERCALABLES 


lenguaje estândar para las competiciones de planificacion en la conferencia AIPS, ini- 
ciadas el ano 1998. 

Los planificadores, a principios de la década de los 70, generalmente trabajaban con 
secuencias de acciones ordenadas. La descomposiciôn de problemas fue alcanzada por 
la computaciôn de un sub-plan para cada sub-objetivo y encadenando los sub-planes en 
algün orden. Este enfoque, llamado por Sacerdoti planification lineal (1975), pronto 
se demostrô que era incompleto. No podfa resolver algunos problemas muy simples, ta¬ 
ies como la anomalia de Sussman (véase Ejercicio 11.11), planteado por Allen Brown 
durante su experimentaciôn con el sistema Hacker (Sussman, 1975). Un planificador 
completo debe permitir intercalar acciones de diferentes sub-planes dentro de una sim¬ 
ple secuencia. La nociôn de sub-objetivos serializables (Korf, 1987) se corresponde exac- 
tamente con el conjunto de problemas para los que los planificadores no-intercalables 
son complétas. 

Una soluciôn para problemas intercalados fue la planificacion de regresiôn de ob- 
jetivos, una técnica con la que se reordenan las fases de un plan totalmente ordenado, 
con el fin de evitar conflictos entre sub-objetivos. Esto fue introducido por Waldinger 
(1975) y también usado por el Warplan de Warren (1974). Warplan es también des- 
tacable porque fue el primer planificador en ser descrito un lenguaje de programacion 
lôgico (Prolog) y es uno de los mejores ejemplos de las posibilidades que pueden al¬ 
gün dia abrirse con el uso de la programacion logica: Warplan tiene solamente 100 
lineas de côdigo, una pequena fracciôn de tamano en tiempo comparable con otros pla¬ 
nificadores. Interplan (Tate, 1975a, 1975b) también permitiô el intercalado arbitra- 
rio de etapas de un plan para compensar la anomalia de Sussman y los problemas 
relacionados. 

La idea sobre las que se fundamenta que la planificacion de orden parcial incluye la 
detecciôn de conflictos (Tate, 1975a), y la protecciôn de condiciones alcanzadas desde 
la interferencia (Sussman, 1975). La construcciôn de planes parcialmente ordenados (en 
su momento llamados redes de tareas) fue precursora del planificador NOAH (Sacer¬ 
doti, 1975, 1977) y el sistema Nonlin de Tate (1975b, 1977) 7 . 

La planificacion de orden parcial domino los 20 anos siguientes de investigaciôn, y 
durante gran parte de este tiempo, la aportaciones a esta area no fueron del todo enten- 
didas. Tweak (Chapman, 1987) fue una reconstrucciôn logica y una simplificaciôn del 
trabajo en planificacion durante este tiempo; su formulaciôn fue suficientemente clara 
para permitir demostraciones de completitud e intratabilidad (NP-completitud e indeci- 
bilidad) o diversas formulaciones del problema de planificacion. El trabajo de Chapman 
nos lleva hasta la que fue posiblemente la primera descripciôn legible de un planifica- 
dor de orden parcial completo (McAllester y Rosenblitt, 1991). Una implementaciôn del 
algoritmo de McAllester y Rosenblitt llamado SNLP (Soderland y Weld, 1991) fue am- 
pliamente distribuido y permitiô a muchos investigadores entender y experimentar con 
planificacion de orden parcial por primera vez. El algoritmo POP descrito en este capi- 
tulo esta basado en SNLP. 


7 Puede existir alguna confusion con la terminologfa. Muchos autores usan el término no-lineal para referir- 
se a parcialmente ordenado. Esto es significativamente diferente del uso original de Sacerdoti para referirse a 
planes intercambiables. 
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El grupo de Weld también desarrollo UCPOP (Penberthy y Weld, 1992), el primer 
planificador para problemas expresados en ADL. UCPOP incorporé la heuristica de nu¬ 
méro de objetivos insatisfechos. Por primera vez se obtuvo un planificador mas râpido 
que SNLP, pero casi nunca fue capaz de encontrar planes con mas de una docena de pa- 
sos. Aunque heuristicas mejoradas fueron desarrolladas por UCPOP (Joslin y Pollack, 
1994; Gereveni y Schubert, 1996), la planificaciôn de orden parcial se vio interrumpi- 
da en la década de los 90 cuando emergieron métodos mas râpidos. Nguyen y Kamb- 
hampati (2001) sugirieron que una renovaciôn era necesaria: con heuristicas adecuadas 
extraidas de un grafo de planificaciôn, y desarrollaron el planificador REPOP que avan- 
zaba mucho mejor que Graphplan y era competitivo fiente a planifie adores de espacio 
de estados mas râpidos. 

Avrim Blum y Merrick Furst (1995, 1997) revitalizaron el campo de la planificaciôn 
con su sistema Graphplan, que fue mas râpido en varios ôrdenes de magnitud que los 
planificadores de orden parcial. Otros sistemas de planificaciôn de grafos, taies como 
IPP (Koehler et al, 1997), Stan (Fox y Long, 1998) y SGP (Weld et al. 1998), pronto 
se pondrian en prâctica. Una estructura de datos estrechamente relacionada con el gra¬ 
fo de planificaciôn ha sido desarrollado hace relativamente poco por Ghallab y Lame¬ 
lle (1994), cuyo planificador de orden parcial IxTeT se usa para derivar adecuadas 
heuristicas que guien las büsquedas. Nuestra discusiôn sobre grafos de planificaciôn estâ 
basada parcialmente en este trabajo y en los trabajos de Subbarao Kambhampati. Como 
hemos mencionado en este capitulo, un grafo de planificaciôn puede ser usado de mu- 
chas formas diferentes para guiar la büsqueda de una soluciôn. El vencedor de la com- 
peticiôn de planificaciôn AIPS en la ediciôn de 2002, LPG (Gerevini y Serina, 2002), 
buscaba grafos de planificaciôn usando una técnica de büsqueda local inspirada por 
WalkSAT. 

La planificaciôn como satisfabilidad y el algoritmo S ATplan fueron propuestos por 
Kautz y Selman (1992), que estuvieron inspirados por el sorprendente éxito de las büs¬ 
quedas locales para la satisfacciôn de problemas (véase Capitulo 7). Kautz et al. (1996) 
también investigaron diferentes formas de representaciones proposicionales utilizando 
axiomas Strips, llegando al resultado de que las formas mâs compactas necesariamen- 
te no llevaban a las soluciones mâs satisfactorias a tiempo. Un anâlisis sistemâtico fue 
realizado por Ernst et al. (1997), quien también desarrollo un «compilador» automâti- 
co para la generaciôn de representaciones proposicionales de problemas PDL. El plani¬ 
ficador Blackbox, que combina ideas de Graphplan y SATplan, fue desarrollado por 
Kautz y Selman (1998). 

El resurgimiento de interés por la planificaciôn en espacio de estados fue promovi- 
do por Drew McDermott y su programa UnPOP (1996), y fue el primera en sugerir una 
distancia heuristica basada en la aproximaciôn de un problema con la eliminaciôn de lis¬ 
tas ignoradas. El nombre UnPOP fue una reacciôn a la insoportable concentraciôn de 
planificadores de orden parcial; McDermott sospechaba que no se le habia prestado la 
suficiente atenciôn que merecian otros enfoques. El planificador de büsqueda heuristi¬ 
ca de Bonet y Geffner (HSP) y sus posteriores variaciones (Bonet y Geffner, 1999) fue¬ 
ron los primeras en plantear büsquedas prâcticas en espacio de estados para problemas 
de planificaciôn complejos. El buscador de espacio de estados mâs exitoso en la actua- 
lidad es FastForward o FF (2000) de Hoffmann, ganador en la competiciôn de plani- 
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ficacion AIPS 2000. FF usa una heuristica de planificacion de grafos simplificada con 
un algoritmo de büsqueda muy râpido que combina büsquedas locales y hacia delante, 
de un modo novedoso. 

Mas recientemente, ha habido interés en la representaciôn de planes como diagra- 
mas de decision binaria, una descripcion compacta de automatas finitos ampliamente 
estudiada en la comunidad hardware (Clarke y Gmmberg, 1987; McMillan, 1993). 
Existen técnicas para proporcionar propiedades de diagramas de decision binaria, in- 
cluyendo la propiedad de ser una soluciôn a un problema de planificacion. Cimatti et al. 
(1998) présenta un planificador basado en este enfoque. Otras representaciones también 
han sido usadas; por ejemplo, Vossen et al. (2001) examinan el uso de la programacion 
entera para la planificacion. 

Existen, aunque no de manera definitiva, algunas nuevas e interesantes comparaciones 
entre los diferentes enfoques de planificacion. Helmert (2001) analiza varias clases de 
problemas de planificacion, y muestra que el enfoque basado en restricciones, tal como 
Graphplan y SATplan son los mejores para dominios NP-duros, mientras que enfoques 
basados en büsquedas funcionan mejor en dominios donde soluciones factibles puedan 
ser encontradas sin técnicas de retro-propagaciôn. Graphplan y SATplan tienen pro¬ 
blemas en dominios con varios objetos, porque pueden crear varias acciones. En algu- 
nos casos, el problema puede ser aplazado o evitado por la generaciôn dinâmica de 
acciones proposicionalizadas preferiblemente que mediante la instanciaciôn antes de que 
la büsqueda comience. 

Weld (1994, 1999) proporciona dos excelentes revisiones de los algoritmos de pla- 
nificacion modernos. Es interesante ver el cambio que se produce entre los cinco anos 
que pasan entre ambos enfoques: el primero se concentra en planificacion de orden par- 
cial, y el segundo introduce Graphplan y SATplan. Readings in Planning (Allen et al., 
1990) es una antologia exhaustiva de muchos de los mejores articulos recientes en el area, 
incluyendo buenas revisiones. Yang (1997) proporciona una perspectiva general de téc¬ 
nicas de planificacion de orden parcial. 

La planificacion ha sido central en la IA desde su inicio, y los articulos sobre plani¬ 
ficacion son un ingrediente de las principales revistas especializadas y conferencias. Exis¬ 
ten conferencias especializadas taies como la Conferencia Internacional de Sistemas de 
Planificacion en IA (AIPS), el Workshop Internacional en Planificacion y Organizacion 
Espacial, y la Conferencia Europea sobre Planificacion. 



EJERCICIOS 

11.1 Describa las diferencias y similitudes entre la resolucion de problemas y la pla- 
nificacion. 


11.2 Dados los axiomas de la Figura 11.2 / Cualcs son las instancias concretas apli- 
cables a Volar(p, desde, hasta ) en el estado descrito por 


En(P u JFK) a En(P 2 , SFO ) a Avion (P,) a Avion (P 2 ) 
a Aeropuerto ( JFK) a Aeropuerto (SFO) ? 
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11.3 Consideremos cômo podriamos traducir un conjunto de esquemas STRIPS en un 
conjunto de axiomas de câlculo situado y de estado-sucesivo ( véase Capitulo 10). 

• Considérese el esquema para Volar(p, desde, hastà). Escriba una definiciôn 16- 
gica para el predicado VolarPrecondiciôn(p, desde, hasta, 5 ), lo cual es correc¬ 
te» si las precondiciones para Volcir{p, desde, hasta) son satisfechas en la situaciôn 

• En segundo lugar, y asumiendo que Volarjp, desde, hasta) es el ünico esquema 
de accion disponible al agente, escriba un axioma de estado-sucesivo para En(p, 
x, 5 ) que capture la misma informaciôn que el esquema de accion. 

• Ahora supongamos que existe un método de viaje adicional: Transporte(p, des¬ 
de, hasta). Se tiene la precondiciôn adicional -1 Modificado{p) y el efecto adicio¬ 
nal Modificado(p). Explique cômo debe ser modificada la base de conocimiento 
de câlculo situado. 

• Finalmente, desarrolle un procedimiento general y especlfico precisamente para 
llevar a cabo el traslado desde un conjunto de esquemas Strips a un conjunto de 
axiomas de estado sucesivo. 

11.4 El problema del mono y los plâtanos viene representado por un mono en un la- 
boratorio con algunas bananas colgadas del techo fuera de su alcance. Una caja se en- 
cuentra disponible y le capacitarfa para alcanzar las bananas si el mono se sube encima. 
Inicialmente, el mono esta sobre A, las bananas sobre B, y la caja en C. El mono y la 
caja tiene peso Poco, pero si el mono se sube a la caja, el conjunto adquiere un peso Ele- 
vado, de igual valor que las bananas. Las acciones disponibles para el mono incluyen Ir 
de un lado a otro, Empujar un objeto de un lugar a otro, Subirse o Bajarse de un obje- 
to, y Agarrar o Soltar un objeto. Agarrar es el resultado de la manipulaciôn de un ob¬ 
jeto si el mono y el objeto estân en el mismo lugar con el mismo peso. 

a) Escriba la descripciôn del estado inicial. 

b ) Escriba las definiciones, en forma Strips, de las seis acciones. 

c) Supongamos que el mono quiere confundir al cientifico, que ha salido a tomar 
el té, agarrando las bananas pero colocando de nuevo la caja en su sitio inicial. 
Escriba este esquema como un objetivo general (es decir, sin asumir que la caja 
esta necesariamente en C) en lenguaje de câlculo situado. ^Podria este objeti¬ 
vo ser alcanzado por un sistema de tipo Strips? 

d) El axioma para Empujar es probablemente incorrecte», porque si el objeto es de- 
masiado pesado, su posiciôn permanecerâ siendo la misma aün cuando el ope- 
rador Empujar sea aplicado. / ; Es este un ejemplo de problema de ramificaciôn 
o de cualificaciôn? Asegürese de que la descripciôn del problema sirva para ob- 
jetos pesados. 

11.5 Explique por qué el proceso para la generaciôn de precedentes en büsquedas 
hacia-atrâs no necesita anadir literales que representen los efectos negativos de la ac¬ 
cion. 

11.6 Explique por qué al eliminar los efectos negativos de cada esquema de accion 
en un problema STRIPS, se obtiene un problema aproximado. 
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11.7 Examine la definicion de busqueda bidireccional del Capitulo 3. 

a) ^Podrîa ser una busqueda bidireccional en el espacio de estados una buena idea 
para la planificaciôn? 

b ) i Y una büsqueda bidireccional en el espacio de planes de orden parcial? 

c ) Invente una version de planificaciôn de orden parcial en el que una acciôn pue- 
da ser anadida a un plan si sus precondiciones pueden ser alcanzadas por los efec- 
tos de acciones ya existentes en el plan. Explique cômo tratar con conflictos y 
ordenamiento de restricciones. / ; Es el algoritmo esencialmente idéntico a una 
büsqueda hacia-delante en el espacio de estados? 

d) Consideremos un planificador de orden parcial que combine el método de la par¬ 
te (c) con el método estândar de anadir acciones para alcanzar condiciones 
abiertas. / ; Podna ser el algoritmo résultante el mismo que en la parte (b)? 

11.8 Construya niveles 0,1 y 2 del grafo de planificaciôn para el problema de la Fi¬ 
gura 11.2. 

11.9 Demuestre las siguientes afirmaciones acerca de los grafos de planificaciôn: 

• Un literal que no aparece en el nivel final del grafo no puede ser alcanzado. 

• El coste de nivel de un literal en un grafo serial no es mayor que el coste real de 
un plan ôptimo para alcanzarlo. 

11.10 Contrastamos planificadores de büsqueda hacia atrâs y hacia delante en el es¬ 
pacio de estados fiente a planificadores de orden parcial, diciendo que los ültimos son 
buscadores en el espacio de planes. Explique cômo büsquedas hacia delante y hacia atrâs 
en el espacio de estados pueden también ser consideradas como busquedas en el espa¬ 
cio de planes, y diga cuâles son los operadores de refinamiento de planes. 

11.11 La Figura 11.16 muestra un problema en un mundo de bloques conocido como 
la anomaba de Sussman. El problema fue considerado anômalo porque los planifica¬ 
dores que no permiten intercalar fases, de principios de los 70, no podian resolverlo. 
Escriba una definicion del problema en notaciôn Strips y resuélvalo, tanto a mano como 
con un programa de planificaciôn. Un planificador no-intercalador es un planificador 
que, dados dos sub-objetivos G l y G 2 , o produce un plan para G l concatenado con un 




Figura 11.16 El problema de planificaciôn «anomalfa de Sussman» en un mundo de bloques. 
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plan para G 2 , o viceversa. Explique por qué no se puede resolver este problema con un 
planificador de este tipo. 

11.12 Consideremos el problema de ponerse uno mismo zapatos y calcetines, tal como 
definimos en la Seccion 11.3. Aplique Graphplan a este problema y muestre la solu- 
cion obtenida. Ahora anada acciones para ponerse un abrigo y un sombrero. Muestre el 
plan de orden parcial que es solucion, y muestre que existen 180 linealizaciones dife- 
rentes del plan de orden parcial. /Cual es el minimo numéro de grafos de planificaciôn 
diferentes y necesarios para representar las 180 linealizaciones? 

11.13 El programa original Strips fue disenado para controlar al robot Shakey. La Fi¬ 
gura 11.17 muestra una version del mundo de Shakey que consiste en cuatro habitacio- 
nes alineadas a lo largo de un pasillo; cada habitacion tiene una puerta y un interruptor 
de luz. 


Interruptor 4 


3 


Habitacion 4 


Puerta 4 


û 


Shakey 


Interruptor 3 


Habitacion 3 


A 

Puerta 3 


Interruptor 2 


Pasillo 


Habitacion 2 


4 
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Caja 3 


Interruptor 1 


Caja 2 


3 


Caja 4 


Caja 1 





Figura 11.17 El mundo de Shakey. Shakey puede moverse entre las paredes dentro de una habi- 
taciôn, puede pasar a través de la puerta entre dos habitaciones, puede subir a objetos escalables, 
empujar objetos moviles y conmutar interruptores de luz. 
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Las acciones en el mundo de Shakey incluyen: moverse de un sitio a otro, empujar 
objetos môviles (taies como cajas), escalar y bajar de objetos rigidos (taies como cajas), 
y encender y apagar las luces. El robot por si mismo nunca fue suficientemente hâbil 
para subirse sobre una caja o conmutar el interruptor para que la luz pasase de encendi- 
da a apagada y al contrario, pero el planificador Strips fue capaz de encontrar e impri- 
mir planes que iban mas alla de las habilidades del robot. Las seis acciones de Shakey 
eran las siguientes: 

• Ir{x, y), que requiere que Shakey esté en x, ademâs de que x e y estén localizadas 
en la misma habitacion. Por convenciôn, una puerta entre dos habitaciones esta en 
ambas. 

• Empujar una caja b desde el lugar x al lugar y dentro de la misma habitacion: Em¬ 
pujar ( b , x, y). Necesitaremos el predicado Caja y constantes para las cajas. 

• Subirse a una caja: Subir{b); Bajar de una caja: Bajatjb). Necesitaremos el pre¬ 
dicado Sobre y la constante Suelo. 

• Encender y apagar una luz: Encender (s), Apagar(s); para encender o apagar la luz, 
Shakey debe estar sobre una caja que se encuentre en la posiciôn del interruptor. 

Describa las seis acciones de Shakey y el estado inicial de la Figura 11.17 en notaciôn 
Strips. Construya un plan para Shakey que logre que la Caja 2 esté en la Habitaciôn 2 . 

11.14 Vimos que los grafos de planificacion solamente pueden trabajar con acciones 
proposicionales. /Que ocurre si queremos usar grafos de planificacion para un proble- 
ma con variables en el objetivo, tal como En(P v x) a En (P 2 ,x), donde x cubre el rango 
sobre un dominio finito de localizaciones? /Como podria codificarse tal problema para 
trabajar con grafos de planificacion? (Recuerde la acciôn Finalizar del planificador 
POP. /Que precondiciones debe tener?) 

11.15 Hasta ahora hemos asumido que las acciones son solo ejecutadas en situacio- 
nes apropiadas. Veamos lo que tienen que decir axiomas proposicionales de estado su- 
cesivo, como en la Ecuaciôn 11.1 acerca de acciones cuyas precondiciones no son 
satisfechas. 

a) Muestre que los axiomas predicen que no sucederâ nada cuando una acciôn sea 
ejecutada en un estado donde sus precondiciones no son satisfechas. 

b) Considérese un plan p que contiene las acciones requeridas para alcanzar un ob¬ 
jetivo pero que también incluye acciones no permitidas. /Es éste un caso como 

Estado inicial a axiomas de estado sucesivo a p (= objetivo? 

c ) Con axiomas de estado sucesor y de primer-orden en câlculo situado (como en 
el Capitulo 10), /es posible probar que un plan que contenga acciones ilegales 
alcanzarâ el objetivo? 

11.16 Utilice el dominio del problema del aeropuerto, para dar ejemplos y explique 
como la division de simbolos reduce el tamano de los axiomas de precondiciôn y los axio¬ 
mas de exclusion de acciones. Dérivé una formula general para el tamano de cada con- 
junto de axiomas en términos del nümero de tramos temporales, el nümero de esquemas 
de acciôn y el nümero de objetos. 
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11.17 En el algoritmo SATplan de la Figura 11.15, cada llamada al algoritmo de sa- 
tisfabilidad afirma un objetivo g T , donde T cubre el rango de T — 0 a T = T m6x . Supon- 
ga, en lugar de esto, que el algoritmo de satisfabilidad es llamado solo una vez, con el 
objetivo g 0 v g 1 v ... v g Tm& . 

a) < Dcvuclvc siempre un plan si existe uno con longitud menor o igual que 7j mix ? 

b) / ; Estc enfoque introduce alguna nueva «solucion» espuria? 

c ) Discuta cômo se podria modificar un algoritmo de satisfabilidad tal como 
WalkSAT de modo que encontrase soluciones cortas (si existen) cuando se dé 
un objetivo disyuntivo de la forma indicada. 



Planification y accion 
en el mundo real 


Donde veremos cômo representaciones mâs expresivas y arquitecturas de agente 
mâs interactivas nos llevan a planifie adores mâs utiles en el mundo real. 


En el capitulo anterior introdujimos la mayoria de los conceptos bâsicos, representaciones 
y algoritmos para la planificacion. Los planificadores que se usan en el mundo real, por 
ejemplo, para la planificacion de las observaciones del Telescopio Espacial Hubble, fac- 
torizaciôn operativa, en el tratamiento con problemas de logistica en campanas milita- 
res son mâs complejos; es necesario extender los planteamientos presentados tanto en 
el âmbito del lenguaje de representacion como en el modo en el que el planificador inter- 
actüa con el entorno. Este capitulo muestra cômo. La Secciôn 12.1 describe la planifi- 
caciôn y la programaciôn en contextos con limitaciôn de recursos y tiempo, y la Secciôn 
12.2 describe la planificacion con subplanes predefinidos. Las Secciones 12.3 a 12.6 pre- 
sentan diferentes arquitecturas de agentes disenadas para trabajar en entornos con in- 
certidumbre. La Secciôn 12.7 muestra cômo planificar cuando el entorno contiene otros 
agentes. 


12.1 Tiempo, planificacion y recursos 


La representacion Strips nos indica c/ué acciones hacer, pero, dado que la representa- 
ciôn esta basada en câlculo de situaciones, no puede decimos nada acerca de cuânto dura 
una accion, ni acerca de cuândo la accion ocurre, excepto para informar que ocurre an¬ 
tes o después de otra de las acciones. En algunos dominios es importante conocer cuân¬ 
do empiezan y terminan las acciones. Por ejemplo, en el problema del reparto de carga, 
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PROGRAMACIÔN 

DEACTIVIDADES 


nos interesa conocer cuândo el avion que transporta la carga aterrizarâ, y no simplemente 
que el aterrizaje ocurrirâ al terminar su vuelo. 

El tiempo esta en la esencia de la familia general de ciertas aplicaciones que llama- 
remos programaciôn de actividades. Dichos problemas requieren completar un con- 
junto de tareas, cada una de las cuales consiste en una secuencia de acciones, y donde 
cada acciôn tiene una duracion determinada y puede requérir varios recursos. El problema 
esta en determinar un plan que minimice el tiempo total requerido para completar todas 
las tareas, a la vez que se respetan las restricciones impuestas a sus recursos. 

Un ejemplo de un problema de programaciôn de actividades viene dado en la Figu¬ 
ra 12.1. Este es un ejemplo simplificado del problema del ensamblaje de automôviles. 
Tenemos dos tareas: ensamblar el coche Cj, y el coche C 2 . Cada tarea consiste en très 
acciones: montar el motor, las ruedas e inspeccionar los resultados. El motor debe ser 
el primera en ser montado (porque colocar previamente las ruedas podria reducir el es- 
pacio disponible) y, obviamente, la inspecciôn debe hacerse en ültimo lugar. 


Iniciar (Chasis(C^) a Chasis(C 2 ) 

a Motor{E v Cj, 30) a Motor(E 2 , C 2 , 60) 
a Ruedas(W v C v 30) a Ruedas(W 2 , C 2 , 15)) 

Objetivo (Montado)C j) a Montado(C ,)) 

Accion ( AnadirMotor(e, c, ni) 

Precond: Motor(e, c, d) a Chasis(c ) a -> MotorDentro(c ), 
Efecto: MotorDentro{c) a Duraciôn(d )) 

Accion {AnadirRuedas{w, c), 

Precond: Ruedasiw, c, d) a Chasis(c), 

Efecto: RuedasPuestas(c) a Duraciôn(d)) 

Accion (Inspeccionar(c), 

Precond: MotorDentro(c) a RuedasPuestas(c) a Chasis(c), 
Efecto: Montado(c) a Duracion) 10)) 


Figura 12.1 Un problema de programaciôn de actividades para el ensamblaje de dos coches. La 
notaciôn Duraciôn(d) significa que una accion toma d minutos en ejecutarse. Motor(E v C v 60) sig- 
nifica que £j es un motor que encaja en el chasis de Cj y que lleva 60 minutos ser instalado. 


MÉT0D0 DEL CAMIN0 
CRITIC0 


El problema de la Figura 12.1. puede ser resuelto por cualquiera de los planificado- 
res que ya se han visto. La Figura 12.2 (ignorando los numéros del esquema) muestra 
la soluciôn que un planificador de primer orden POP podria obtener. Interpretarlo como 
un problema de programaciôn de tareas, en lugar de como un problema de planification, 
exige determinar cuândo deben iniciarse y concluirse cada una de las acciones. Esto sig¬ 
nifica que se debe presentar atenciôn a la duracion de cada accion, tanto como a su or¬ 
den. La notaciôn Duraciôn{d) como efecto de una accion (donde d debe ser limitado a 
un nümero) significa que la accion toma d minutos en ser completada. 

Dada un ordenaciôn parcial de acciones con la especificaciôn de duraciones, como 
vemos en la Figura 12.2, podemos utilizar el método del camino critico (MCC) para 
determinar los posibles tiempos de inicio y finalizaciôn de cada una de las acciones. Un 
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CAMINO CRITICO 


RELAJACIÔN 




Anadir Motor 2 


Inspecc. 2 

< 
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Figura 12.2 Soluciôn al problema de planificacion de actividades de la Figura 12.1. En la parte 
superior, la soluciôn se da como un plan de orden parcial. La duraciôn de cada acciôn se présenta 
en la parte baja de cada rectângulo, con los extremos temporales del intervalo | ES, LS], La dife- 
rencia entre ambos valores es el intervalo de relajaciôn de una acciôn; las acciones que presentan 
un valor nulo estân en el camino critico, y se muestra con fléchas oscuras. En la parte inferior de 
la figura, la misma soluciôn se muestra sobre un eje temporal. Los rectângulos grises representan 
intervalos de tiempo durante los cuales una acciôn puede ser ejecutada, considerando que las res- 
tricciones son respetadas. La zona desocupada en cada rectângulo gris indica el intervalo de rela¬ 
jaciôn. 


camino de un plan parcialmente-ordenado es una secuencia de acciones linealmente or- 
denadas comenzando con Inicio y terminando con Final. (Por ejemplo, existen dos ca- 
minos en el plan de orden parcial de la Figura 12.2.) 

El camino critico es aquel que présenta la mayor duraciôn; se le llama camino «cri¬ 
tico» porque détermina la duraciôn de un plan completo (reducir otros caminos no se 
traduce en un acortamiento del plan como conjunto, pero retrasar el inicio de cualquier 
acciôn del camino critico ralentiza el plan en su conjunto). En la figura, el camino cri¬ 
tico se destaca con lineas gruesas de color negro. Para completar el plan completo en el 
minimo tiempo total, las acciones del camino critico deben ser ejecutadas sin retrasos 
entre ellas. Las acciones que quedan fuera del camino critico poseen un margen de li- 
bertad (una ventana temporal) para ser ejecutados. Esta ventana queda especificada en 
términos de un intervalo de tiempo previo al inicio, ES, y un intervalo de tiempo poste- 
rior al inicio, LS. La cantidad LS — ES se conoce como el intervalo de relajaciôn de 
una acciôn. Podemos ver en la Figura 12.2 como el plan en su conjunto toma 80 minu¬ 
tas, que cada acciôn del camino critico tiene un intervalo de relajaciôn nulo (siempre ocu- 
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PROGRAMA 


RECURSOS 


RECURSO 

REUTILIZABLE 


rre asf) y que cada una de las acciones en el ensamblaje de C l tiene una ventana de 10 
minutos de intervalo para que se inicie la accion. Junto con los tiempos ES y LS asociados 
a cada accion, se constituye el programa del problema. 

Las siguientes formulas nos sirven como una definicion de ES y LS y como el es- 
quema de un algoritmo de programacion para computar estos paramétras : 

ES(Inicio) = 0 

ES(B) = m àx A<B ES(A) + Duraciôn{A) 

LSIFinalizar) = ES(Finalizar ) 

LS(A) = min a<b LS(B) — Duraciôn(A) 

La idea es que comencemos por asignarle a ES(Iniciar ) el valor 0. Enfonces, tan pron- 
to como obtengamos una accion B tal que todas las acciones que ocurran inmediatamente 
después de B tengan los valores de ES asignados, fijamos que ES (B) sea el mâximo de 
los tiempos de finalizaciôn de las acciones inmediatamente precedentes. Este proceso 
se repite hasta que cada uno tenga asignado un valor ES. Los valores LS son calculados 
de una manera similar, hacia atrâs desde la accion Finalizar. Los detalles se dejan como 
ejercicio. 

El orden de complejidad de un algoritmo de camino critico es solamente 0(Nb), don- 
de N es el numéro de acciones y b es el mâximo factor de ramification dentro o fuera 
de una accion. (Para ver esto, destacamos que los câlculos de ES y LS se realizan una 
vez por cada accion, y que cada câlculo itéra sobre un mâximo de b acciones diferen- 
tes.) Por tanto, el problema de encontrar un programa de duracion minima, dada una or- 
denacion parcial de las acciones, es relativamente sencillo de resolver. 

Programacion con restricciôn de recursos 

Los problemas de programacion real son complicados por la presencia de restricciones 
sobre los recursos. Por ejemplo, anadir un motor a un coche requiere un elevador. Si 
solo existe un elevador, no podremos anadir simultâneamente un motor E x a un coche 
Cj y un motor E , a un coche C 2 ; de este modo, el programa de tareas mostrado en la Fi¬ 
gura 12.2 podria ser inviable. El elevador del motor es un ejemplo de un recurso reu- 
tilizable (un recurso que se encuentra «ocupado» durante la accion pero que se vuelve 
disponible cuando la accion ha finalizado). Destaquemos que los recursos reutilizables 
no pueden ser manejados con nuestras descripciones de las acciones en términos de pre- 
condiciones y efectos, porque la cantidad de recursos disponibles no cambia después de 
que la accion sea completada 1 . Por esta razôn, incrementamos nuestra représentation para 
incluir un campo de la forma Recurso:R(Æ), que nos explica que k unidades de recurso 
R son necesarias para la accion. El requerimiento de recurso es tanto un prerrequisito 
(la accion no puede ejecutarse si no tenemos dicho recurso disponible) y un efecto tem¬ 
poral, en el sentido de que la disponibilidad de un recurso r estâ reducida al valor k, para 
la duracion de la accion. La Figura 12.3 muestra como extender el ejemplo del proble¬ 
ma del ensamblaje del motor para incluir mâs recursos: un elevador para instalar moto- 


1 En contraste, recursos consumibles, taies como tomillos para ensamblar el motor, pueden ser tratados como 
el resto de elementos del marco estândar; véase Ejercicio 12.2. 
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Iniciar ( Cliasis(C a Chasis(C 2 ) 

a Motor(E v Cj, 30) a Motor(E ,, C 2 , 60) 
a Ruedas(W v Cj, 30) a Ruedas(W 2 , C 2 , 15) 

a Ensamblaje de carroceria (7) a Ensamblaje de ruedas (7) a Inspectores{2j) 
Objetivo (MontadoiC j) a Montado(C 2 )) 

Acciôn ( AnadirMotor(e, c, m) 

Precond: Motor{e, c, d) a Chasis(c) a ~‘MotorDentro(c), 

Efecto: MotorDentro(c) a Duraciôn(d) 

Recurso: Ensamblaje de carroceria (7)) 

Acciôn ( AnadirRuedas(w, c), 

Precond: Ruedas{w, c, d) a Chasis(c), 

Efecto: RuedasPuestas(c) a Duraciônjd ), 

Recurso: Ensamblaje de ruedas (7)) 

Acciôn ( Inspeccionar(c ), 

Precond: MotorDentro(c) a RuedasPuestas(c), 

Efecto: Montado(c) a Duraciônj 10), 

Recurso: Inspectons (7)) 


Figura 12.3 Problema de programacion de actividades para el ensamblaje de dos coches, con re- 
cursos. Los recursos disponibles son: una estaciôn de ensamblaje de carroceria, una estaciôn de en¬ 
samblaje de ruedas y dos inspectores. La notacion Recurso:/' significa que el recurso r es usado 
durante la ejecuciôn de una acciôn, pero vuelve a ser un recurso disponible cuando la acciôn se com¬ 
pléta. 


Elevador 

delMotor(l) 


EstaciônAdecuada 

paraRuedas(l) 


lnspectores(2) 


AnadirMotor 1 

AnadirMotor 2 

> 
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AnadirRuedas 1 

- Z 

AnadirRuedas 2 


Inspecc. i| 


Inspecc. 2 


Figura 12.4 Soluciôn al problema de programacion de actividades para el ensamblaje de dos co¬ 
ches con recursos mostrado en la Figura 12.3. En el margen izquierdo se présenta una lista con très 
recursos, y las acciones se muestran alineadas horizontalmente frente a los recursos que se consu- 
men. Tenemos dos posibles programas de actividades dependiendo cuâl de los dos ensamblajes uti- 
liza la estaciôn en primer lugar; se muestra la soluciôn ôptima que toma 115 minutos. 


res, una estaciôn adecuada para colocar las ruedas y dos inspectores que controlen los 
procesos. La Figura 12.4 muestra la soluciôn mas râpida, 115 minutos de tiempo com¬ 
plète. Esto es mas que los 80 minutos requeridos para un programa sin limitaciôn de re¬ 
cursos. Destaquemos que no es necesario, para ningün instante de tiempo, que ambos 
inspectores trabajen simultâneamente, de modo que podemos mover uno de ellos a po- 
siciones mas productivas. 
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AGREGACIÔN 


MÎNIMO INTERVALO 


La opciôn de representar los recursos como cantidades numéricas, taies como Ins- 
pectores(2), preferiblemente a entidades de tipo carâcter, como Inspectorat j) e Inspec¬ 
ter (/ 2 ), es un ejemplo de una técnica general que llamamos agregaciôn. La idea central 
de la agregaciôn es la agrupaciôn de objetos individuales en diversas cantidades cuan- 
do los objetos son todos indistinguibles con respecto al propôsito que tengamos entre 
manos. En nuestro problema del ensamblaje no existe problema en la elecciôn de qué 
inspector inspecciona el coche, de modo que no necesitamos hacer distinciones. (La mis- 
ma idea subyace en el problema de los misioneros y cambales del Ejercicio 3.9.) La agre¬ 
gaciôn es esencial para reducir la complejidad. Consideremos qué sucederia cuando una 
programaciôn de tareas es propuestacon 10 acciones Inspeccionar simultâneas pero so- 
lamente nueve inspectores son disponibles. Con los inspectores representados como can¬ 
tidades, un eiTor es detectado inmediatamente y el algoritmo vuelve hacia atrâs para 
intentar otra organizaciôn de tareas. Con los inspectores representados como individuo, 
el algoritmo regresa hacia atrâs para intentar las 10 formas de asignar inspectores a las 
acciones Inspeccionar, en vano. 

A pesar de sus ventajas, la restricciôn de recursos généra problemas mas complica- 
dos porque introduce interacciones adicionales entre acciones. Mientras que la progra¬ 
maciôn sin restricciones utilizando el método de camino-critico es sencilla, encontrar un 
programa con limitaciôn de tareas y con el minimo tiempo posible es NP-duro. Esta com¬ 
plejidad es frecuentemente observada en la prâctica y en la teoria. Un problema propuesto 
en 1963 (para encontrar el programa ôptimo de un sistema que presentaba 10 mâquinas 
y 10 trabajos de 100 acciones cada uno) se mantuvo sin resolver durante 23 anos (La- 
wler et al., 1993). Muchos enfoques fueron planteados, incluyendo técnicas de ramifi- 
caciôn-y-poda, simulaciôn, büsquedas, satisfacciôn de restricciones, y diversas técnicas 
de la Parte II. Una simple pero popular heuristica es el algoritmo del mi'nimo interva- 
lo de relajaciôn. Este algoritmo, por cada iteraciôn, considéra las acciones no progra- 
madas que han tenido todos sus predecesores organizados y programa aquélla con menor 
intervalo de relajaciôn para que se inicie lo antes posible. Actualiza los tiempos ES y LS 
para cada acciôn afectada y repite la operaciôn. La heuristica esta basada sobre el mis- 
mo principio que la heuristica de variable-mâs-restringida aplicada a problemas de sa¬ 
tisfacciôn de restricciones. Frecuentemente tiene buenos resultados en la prâctica, pero 
para nuestro problema del ensamblaje nos da una soluciôn de 130 minutas, mayor que 
la soluciôn de 115 minutas de la Figura 12.4. 

El planteamiento que hemos tomado en esta secciôn es el de «primera planificar, des- 
pués programar»: esto es, dividimos el problema completo en una fase de planificaciôn 
en la que las acciones son seleccionadas y parcialmente ordenadas para alcanzar los ob- 
jetivos del problema, y posteriormente una fase de programaciôn, en la que la informa- 
ciôn temporal es anadida al plan para asegurarse que considéra las limitaciones de 
recursos y los plazos. Este enfoque es comün al que se toma en problemas logisticos y 
de manufacturado en el mundo real, donde la fase de planificaciôn es normalmente eje- 
cutada por expertos humanos. Cuando existen diferentes limitaciones de recursos, no obs- 
tante, podria suceder que algunos planes legitimos estén mucho mejor programados que 
otros. En ese caso, tiene sentido integrar la planificaciôn y la organizaciôn tomando en 
consideraciôn duraciôn y solapamiento de acciones durante la construcciôn de un plan 
de orden parcial. Varios de los algoritmos de planificaciôn expuestos en el Capitulo 11 
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pueden ser ampliados para trabajar con esta informaciôn. Por ejemplo, planificadores 
de orden-parcial pueden detectar que no se cumplen las restricciones de recursos del mis- 
mo modo que se detectan conflictos con enlaces causales. Las heuristicas pueden ser mo- 
dificadas para estimar el tiempo total de un plan completo, en lugar de solamente estimar 
el coste total de las acciones. Esta es actualmente un area de investigaciôn activa. 


12.2 Redes de planifîcacion jerârquica de tareas 


DESCOMPOSICIÔN 

JERÂRQUICA 


RED JERÂRQUICA 
DE TAREAS 


DESCOMPOSICIÔN 
DE ACCIONES 


ACCIÔN PRIMITIVA 


Una de las ideas dominantes en el tratamiento de problemas con alta complejidad es la 
descomposiciôn jerârquica. Se discna software complejo como jerarquias de subruti- 
nas de clases-objeto; los ejércitos operan como unidades jerârquicas, los gobiernos y las 
corporaciones se estructuran como jerarquias de departamentos, servicios y oficinas. El 
beneficio central de las estructuras jerârquicas consiste en que, por cada nivel de la je- 
rarquia, una tarea computacional, una misiôn militar, o funciôn administrativa es redu- 
cida a un pequeno numéro de actividades en el siguiente nivel mas bajo, de forma que 
el coste computacional para encontrar el modo correcto de planificar las actividades de 
un problema concreto es de poca importancia. En el lado contrario, tenemos métodos 
opuestos, llamados No-jerârquicos, y que reducen una tarea a un amplio nümero de ac¬ 
ciones individuales; para problemas altamente escalables, es un planteamiento comple- 
tamente impracticable. En el mejor de los casos (cuando soluciones de alto nivel se pueden 
satisfacer con implementaciones de bajo nivel) los métodos jerârquicos pueden presen- 
tar una dependencia lineal con el tiempo en lugar de las dependencias exponenciales de 
los algoritmos de planifîcacion. 

Esta seccion describe un método de planifîcacion basado en redes jerârquicas de 
tareas o RJTs. El enfoque que tomamos combina ideas del âmbito de la planifîcacion 
de orden-parcial (Seccion 11.3) y el area conocida como «planifîcacion RJT». En la pla- 
nificaciôn RJT, el plan inicial que describe el problema se ve como una descripcion de 
alto nivel de lo que debe ser hecho (por ejemplo, construir una casa). Los planes son me- 
jorados por la descomposiciôn de acciones. Cada descomposiciôn de una acciôn redu¬ 
ce una acciôn de alto nivel en un conjunto parcialmente ordenado de acciones de menor 
nivel. La descomposiciôn de acciones, por tanto, incorpora conocimiento acerca de 
como implementar acciones. Por ejemplo, construir una casa podria ser reducido a ob- 
tener un permiso, disponer de los servicios de un contratista, ejecutar las obras y pagar 
al contratista. (En la Figura 12.5 mostramos esta descomposiciôn.) El proceso continua 
hasta que solamente queden en el plan acciones primitivas. Tipicamente, las acciones 
primitivas serân acciones que el agente podrâ ejecutar automâticamente. Para un con¬ 
tratista genérico, «disenar jardines» puede ser primitivo porque simplemente se limita 
a llamar al jardinero. Para el jardinera, acciones taies como «plantar pétunias» pueden 
considerarse primitivas. 

En planifîcacion RJT «pura», los planes son generados solamente para descomposi¬ 
ciôn de acciones sucesivas. La RJT ve la planifîcacion como un proceso mas concreto de 
confeccionar la descripcion de actividades, en lugar de (como en el caso del espacio de es- 
tados y de la planifîcacion de orden parcial) un proceso de construcciôn de descripciones 
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de actividades, iniciado con la actividad varia. Esto nos lleva a que cada descripciôn de 
acciones Strips pueda ser reducida a una descomposiciôn de acciones (véase Ejercicio 
12.6), y que la planification de orden-parcial pueda ser vista como un caso especial de pla¬ 
nification RJT pura. Para ciertas tareas, sin embargo (especialmente las secuencias de ob- 
jetivos «noveles») el punto de vista RJT puro es poco natural, y preferimos tomar un enfoque 
hîbrido en el que la descomposiciôn de acciones sea usada como refinamientos de planes 
en planification de orden parcial, ademâs de operaciones estândar como la de establecer 
condiciones abiertas y resolver conflictos anadiendo restricciones ordenadas (consideran- 
do la planification RJT como una extension de la planification de orden partial, se tiene 
la ventaja adicional de que podemos usar las mismas convenciones sobre notation en lu- 
gar de introducir un nuevo conjunto de simbolos). Comencemos por describir la descom- 
posiciôn de acciones en mayor detalle. Asi explicaremos como algoritmos de planification 
de orden-parcial deben ser modificados para trabajar con descomposiciones, y finalmen- 
te discutiremos sobre problemas de completitud, complejidad y utilidad. 


Representaciôn de descomposiciôn de acciones 


BIBLIOTECA 
DE PLANES 


PRECONDICIONES 

EXTERNAS 

EFECTOS EXTERNOS 


EFECTOS PRIMARIOS 

EFECTOS 

SECUNDARIOS 


Las descripciones generales de los métodos de descomposiciôn de acciones se almace- 
nan en una biblioteca de planes, desde donde se recuperan, extrayendo e instanciando 
elementos que cumplan las necesidades del plan que esta siendo construido. Cada mé- 
todo es una expresiôn de la forma Descomponeria, d). Esto nos informa de que una ac¬ 
tion a puede ser descompuesta dentro del plan d, lo que se représenta como un plan de 
orden parcial, tal como describimos en la Section 11.3. 

Construir una casa es un ejemplo concreto y sencillo que usaremos para ilustrar este 
concepto de descomposiciôn de acciones. La Figura 12.5 représenta una posible des¬ 
composiciôn de la action ConstruirCasa en cuatro acciones de menor nivel. La Figura 
12.6 muestra alguna de las descripciones de acciones en el dominio y la descomposi¬ 
ciôn de ConstruirCasa como si apareciese en la biblioteca de planes. Podria existir mas 
de una forma de descomposiciôn posible siguiendo la biblioteca de planes. 

La action Inicio de la descomposiciôn proporciona todas aquellas precondiciones 
de las acciones del plan que no son suministradas por otras acciones. Llamaremos a és- 
tas precondiciones externas. En nuestro ejemplo, las precondiciones extemas de la des¬ 
composiciôn son Tierra y Dinero. De forma équivalente, los efectos externos, que son 
las precondiciones de Finalizar, son todos aquellos efectos de las acciones del plan que 
no son negados por otras acciones. En nuestro ejemplo, los efectos externos de Cons¬ 
truirCasa son Casa, y -r Dinero . Algunos planificadores RJT también distinguen entre 
efectos primarios, taies como Casa, y efectos secundarios taies como -i. Dinero . Sola- 
mente los efectos primarios pueden ser usados para alcanzar objetivos, mientras que am- 
bas clases de efectos pueden causar conflictos con otras acciones; esto puede reducir 
considerablemente el espacio de estados 2 . 


2 También podria prévenir el descubrimiento de planes inesperados. Por ejemplo, una persona que haga tren¬ 
te a una posible bancarrota puede eliminar todos sus activos llquidos (es decir, alcanzar el estado -■ Dinero) 
por construir o comprar una casa. Este plan es ütil porque la actual ley excluye la confiscation de la prime¬ 
ra vivienda por los acreedores. 
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Acciôn (ComprarTierra, Precond: Dinero, Efecto: Tierra a -^Dinero) 

Acciôn (ConseguirPréstamo, Precond: BuenCrédito, Efecto: Dinero a Hipoteca) 
Acciôn (ConstruirCasa, Precond: Tierra, Efecto: Casa) 

Acciôn (ObtenerPermiso, Precond: Tierra, Efecto: Permiso) 

Acciôn (ContratarConstructor, Efecto: Contrato ) 

Acciôn (Construction, Precond: Permiso a Contrato, 

Efecto: CasaConstruida a -i Permiso) 

Acciôn (PagarConstructor , Precond: Dinero a CasaConstruida, 

Efecto: -i Dinero a Casa a -i Contrato ) 

Descomponer(ConstruirCasa, 

P/an(ETAPAs:{Sj: ObtenerPermiso, S 2 : ContratarConstructor, 

Sÿ Construcciôn, S 4 : PagarConstructor} 

Orden: j Inicio < S l < S 2 < S 4 < Finalizar, Inicio < S 2 < S 3 }, 

Enlaces: {Inicio T,erra > S,, Inicio D, " elo > S 4 , 

o Permiso n r- Contrato o v CasaConstruida o 

O ^ *^2 -^ LJ3, 1J3 -> *^4 > 

S 4 Casa > Finalizar, S 4 -^1™ Finalizar})) 


Figura 12.6 Description de acciones para el problema de la construction de una casa y des- 
composiciôn detallada para la action ConstruirCasa. Las descripciones adoptan una vision sim- 
plificada sobre dinero y una vision optimista sobre los constructores. 


Una descomposicion deberfa ser una correcta implementaciôn de la acciôn. Un plan 
d implémenta correctamente una acciôn a, si d es un compléta y consistente plan de 
orden parcial para el problema de alcanzar los efectos de a, dadas las precondiciones 
de a. Obviamente, una descomposicion sera correcta si es el resultado de ejecutar un 
plan de orden parcial adecuado. 

Una biblioteca de planes podria contener varias descomposiciones para cualquier ac¬ 
ciôn de alto nivel; por ejemplo, podria existir otra descomposicion para ConstruirCasa 
que describa un proceso por el cual el agente construya una casa de rocas y barro con 
sus manos desnudas. Cada descomposicion debe ser un plan correcta, pero podria tener 
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precondiciones adicionales y efectos mas alla que los que estaban establecidos en la des- 
cripciôn de acciones de alto nivel. Por ejemplo, la descomposicion para ContruirCasa 
de la Figura 12.5 requiere Dinero y Tierra y tiene el efecto -> Dinero. La opciôn de cons- 
truir personalmente la casa, por otro lado, no requiere dinero, pero necesita un suministro 
de Rocas y Barro, lo cual puede ser contraproducente. 

Dada una acciôn de alto nivel, como la de ContruirCasa, pueden existir varias po- 
sibles descomposiciones, y es inévitable que la descripcion de la acciôn por Strips 
posea algunas de las precondiciones y efectos de taies descomposiciones. Las precon¬ 
diciones de una acciôn de alto nivel, deben ser la intersecciôn de las precondiciones exter- 
nas de sus descomposiciones, y los efectos deben ser la intersecciôn de los efectos 
externos de sus descomposiciones. Dicho de otra forma, las precondiciones y los efec¬ 
tos de alto nivel tienen asegurado ser un subconjunto de las precondiciones y efectos de 
cada implementaciôn primitiva. 

Otros dos modos de explotar informaciôn deben ser mencionados. En primer lugar, 
efectos internos la descripcion de alto nivel ignora completamente todos los efectos internos de la des- 
composiciôn. Por ejemplo, nuestra descomposicion de ConstruirCasa tiene efectos intemos 
provisionales como Permitir y Contratar 3 . En segundo lugar, la descripcion de alto nivel 
no especifica los intervalos «dentro» de la actividad durante los que las precondiciones 
de alto nivel son efectos que deben cumplirse. Por ejemplo, la precondiciôn Tierra nece¬ 
sita ser verdad (en nuestro modelo aproximado) solo hasta que ObtenerPermiso sea eje- 
cutado, y Casa sera verdad solo después de que sea ejecutado PagarConstructor. 

La informaciôn que se trata en este enfoque es esencial si la planificaciôn jerârqui- 
ca pretende reducir la complejidad; necesitamos ser capaces de razonar acerca de acciones 
de alto nivel sin preocupamos acerca de miles de detalles de las implementaciones. Exis¬ 
te, sin embargo, un precio que hay que pagar. Por ejemplo, pueden existir conflictos en¬ 
tre condiciones internas de una acciôn de alto nivel y las de otra, pero no hay modo de 
detectar esto desde las descripciones de alto nivel. Este asunto tiene implicaciones sig- 
nificativas para algoritmos de planificaciôn RJT. En resumen, mientras que las acciones 
primitivas puedan ser tratadas como eventos puntuales por el algoritmo de planificaciôn, 
las acciones de alto nivel tendrân entidad temporal dentro de la cual puede suceder todo 
de tipo de cosas. 

Modifïcaciôn de planifïcadores para su descomposicion 

A continuaciôn mostraremos como modificar POP para incorporar planificaciôn RJT. 
Lograremos esto mediante la modifïcaciôn de la funciôn de sucesores POP (Apartado 11.3) 
para permitir que métodos de descomposicion sean aplicados al plan parcial actual P. 
Los nuevos planes sucesores estân formados primeramente mediante la selecciôn de al¬ 
gunas acciones no primitivas a' en P y posteriormente, para cada método Descompo- 
ner(a, ri) de la librerfa de planes de modo que a y a' se unifican mediante la substituciôn 
9, reemplazando a' por ri' = Subst( 6, d). 


3 Construction niega el Permiso, aparté de que el mismo permiso puede ser usado para construir muchas 
casas. Desafortunadamente, Construction no pone fin al Contrato porque tenemos que PagarConstructor 
primero. 
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DISTRIBUCIÔN 
DE SUBTAREAS 


La Figura 12.7 nos muestra un ejemplo. Inicialmente, tenemos un plan P para ad- 
quirir una casa. La accion de nivel alto, a' = Construire a sa, se selecciona para des- 
componerse. La descomposiciôn d es seleccionada de la Figura 12.5, y ConstruirCasa 
es reemplazada por su descomposiciôn. En una etapa posterior, AdquirirPréstamo se in- 
troduce para resolver la nueva condiciôn abierta, Dinero, que es creada a partir de la des¬ 
composiciôn. Reemplazar una accion por su descomposiciôn es un pequeno ejercicio de 
transplante quirürgico: debemos eliminar el nuevo subplan de su envoltorio (las etapas 
Inicio y Final), insertarlo, y «engancharlo» todo apropiadamente. Podemos emplear di- 
ferentes modos de hacer esto. Para ser mas precisos, tenemos para cada posible des¬ 
composiciôn d', 



Inicio 



Dinero 


BuenCrédito 


Casa 


Final 


Figura 12.7 Descomposiciôn de una accion de alto-nivel dentro de un plan existente. La accion 
ConstruirCasa es reemplazada por su descomposiciôn indicada en la Figura 12.5. La precondiciôn 
extema Tierra es proporcionada por la conexiôn causal desde ComprarTierra. La precondiciôn ex- 
tema Dinero permanece abierta después de la fase de descomposiciôn, de modo que anadimos una 
nueva accion, AdquirirPréstamo. 


1. En primer lugar, la accion a' se élimina de P. Enfonces, para cada etapa 5 en la 
descomposiciôn d', necesitamos elegir una accion que ocupe el roi de s y ana- 
dirla al plan. Puede consistir en una nueva instanciaciôn de 5 o en una fase exis¬ 
tente s' de P que se unifique con 5. Por ejemplo, la descomposiciôn de la accion 
HacerVino podria sugerir la accion ComprarTierra', posiblemente, podemos uti- 
lizar la misma accion ComprarTierra que ya teniamos en el plan. Llamamos a 
este proceso distribuciôn de subtareas. 

En la Figura 12.7 no hay posibilidades de distribuciôn, de modo que son 
creadas nuevas instancias de acciones. Una vez que las acciones han sido ele- 
gidas, todas las restricciones internas de d' son transcritas (por ejemplo, que 
AdquirirPréstamo sea ordenado antes de Construcciôn y que exista una rela- 
ciôn causal entre estas dos etapas proporcionando Permiso como precondiciôn 
de Construcciôn). Esto compléta la tarea de reemplazar a' con la instancia¬ 
ciôn de dd. 
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2. La siguiente fase es conectar las restricciones de orden de a' en el plan origi¬ 
nal con las fases en d'. Primeramente, consideramos una restriccion de orden 
en P de la forma B < a'. /Como debe ser ordenada B con respecta a las fases 
en d'I La solucion mas obvia es que B comparezca en cada etapa de d', y esto 
puede ser alcanzado reemplazando cada restriccion de la forma Inicio < s en 
d' , con una restriccion B < s. Por otro lado, este enfoque puede ser demasia- 
do rfgido. Por ejemplo, ComprarTierra tiene que prevalecer a ConstruirCasa, 
pero no hay necesidad para que ComprarTierra venga antes de Contratar- 
Constructor en el plan expandido. Imponer una orden demasiado estricta pue¬ 
de impedir la posibilidad de encontrar algunas soluciones. Por tanto, la mejor 
solucion consiste en registrar, para cada restriccion de orden, cuâl es la razôn 
de la restriccion; por tanto, cuando una accion de alto nivel sea expandida, las 
nuevas restricciones de orden pueden ser tan flexibles como sea posible, con- 
sistentes con la restriccion original. Exactamente ocurre lo mismo cuando re- 
emplazamos restricciones de la forma a'< C. 

3. La ültima fase es la conexion de los enlaces causales. Si B CL, a' era un enlace cau¬ 
sal en el plan original, se reemplaza por un conjunto de enlaces causales desde B 
hacia todas las fases en d' con precondiciones p que fueron suministradas por la 
etapa Iniciar en la descomposicion d (esto es, para todas las fases en d' para las 
cuales p sea una precondicion extema). En el ejemplo, la conexion causal, Com¬ 
prarTierra / "' ,T > ConstruirCasa es rccmplazada por ComprarTierra /ll '" > Per- 
miso (la precondicion Dinero para PagarConstructor en la descomposicion se 
transforma en una condiciôn abierta, porque ninguna accion en el plan original 
suministra Dinero para ConstruirCasa). De manera similar, para cada conexion 
causal a' C en el plan, se reemplaza con un conjunto de enlaces causales a 
C desde cualquier fase en d' que suministra p a la fase Finalizar en la descom- 
posiciôn d (es decir, desde la etapa en d' que tiene a p como un efecto externo). 
En el ejemplo, se reemplaza la relation ConstruirCasa ( asa > Finalizar por el 
enlace PagarConstructor - asa > Finalizar. 

Esto compléta todos los elementos requeridos para generar descomposiciones en el con¬ 
texte del planifie ador POP 4 . 

Modifieaciones adicionales al algoritmo POP son requeridas por el hecho de que las 
acciones de alto nivel ocultan information acerca de sus definitivas implementaciones 
de primitivas. En particular, el algoritmo original POP rétrocédé con errores si el plan 
actual contiene un conflicto irresoluble, esto es, si la accion entra en conflicto con un 
enlace causal pero no puede ser ordenado ni antes ni después del mismo (la Figura 11.9 
muestra un ejemplo). Con acciones de alto nivel, por el otro lado, conflictos aparente- 
mente irresolubles pueden a veces ser resueltos mediante descomposicion de acciones 
conflictivas e intercalando sus etapas. Un ejemplo se muestra en la Figura 12.8. De este 
modo, puede darse el caso de que un plan completo y consistente pueda ser obtenido por 
descomposicion incluso aun cuando no exista plan completo y consistente de alto nivel. 


4 Existen algunas modificaciones menores requeridas para tratar resoluciôn de conflictos con acciones de 
alto nivel; los lectores interesados pueden consultai' los trabajos citados al final del capftulo. 
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(a) Problema inicial (b) Problema abstracto inconsistente 



(c) Descomposiciôn de (b) en una Soluciôn consistente 


Figura 12.8 El problema del Regalo de los Reyes Magos, tomado de la historia de O. Henry mues- 
tra un plan abstracto e inconsistente que sin embargo puede descomponerse en soluciones consis- 
tentes. La parte (a) muestra el problema: Una pobre pareja tiene solo dos posesiones preciosas: 
él un reloj de oro y ella una bella melena rubia. Cada uno planea comprar un regalo que haga al 
otro feliz. Él décidé cambiar su reloj por un peine de plata para su pelo, y ella décidé vender su pelo 
para comprar una correa de oro para su reloj. En (b) el plan parcial es inconsistente, porque no hay 
manera de ordenar «DarPeine» y «DarCorrea» como fases abstractas sin un conflicto. (Se asume 
que la acciôn «DarPeine» tiene la precondiciôn Pelo, porque si la mujer no tuviese el pelo largo, 
la acciôn no tendria la intenciôn de hacerla feliz, y de modo similar la acciôn «DarCadena».) En 
(c) se descompone la fase «DarCadena» con un método del tipo «plan a plazos». En la primera fase 
de la descomposiciôn, el marido adquiere el peine y se lo da a su mujer, mientras que acuerda en- 
tregar el reloj como pago un dia después. En la segunda fase, el reloj es entregado y la obligaciôn 
adquirida se cumple. Un método similar descompone la etapa «DarCorrea». Tan pronto como am- 
bas fases sean ordenadas antes de los momentos de entrega, esta descomposiciôn resuelve el pro¬ 
blema. (Nôtese que esto descansa sobre la idea de definiciôn del problema, de modo que la felicidad 
del uso de la correa con el reloj, o del peine con el pelo, persiste aün incluso después de que las po¬ 
sesiones sean entregadas.) 


Esta posibilidad significa que un planificador completo RJT tiene que renunciar a mu- 
chas oportunidades de poda que se encuentran disponibles para un planificador POP es- 
tândar. Alternativamente, podemos utilizar procesos de poda indiscriminadamente y 
esperar que ninguna soluciôn se pierda. 

Discusiôn 

Comencemos con las malas noticias: la planificaciôn RJT pura (donde el ünico modo 
de refinamiento de planes permitido es la descomposiciôn) es indecidible, incluso aun- 
que el espacio de estados subyacentes seafinito. Esto podria parecer muy deprimente, 























































488 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


dado que el fin de la planificaciôn RJT es lograr eficiencia. La dificultad crece porque 
la descomposicion de las acciones puede ser recursiva (por ejemplo, dar un paseo, pue- 
de ser implementado como dar un paso y comenzar a dar un paseo) de modo que los 
planes RJT pueden ser arbitrariamente largos. En particular, la soluciôn RJT mas cor- 
ta puede ser arbitrariamente larga, de modo que no hay manera de terminar la büsque- 
da para un tiempo fijado. Existen, sin embargo, al menos très maneras de enfocar la 
soluciôn: 

1. Podemos descartar la recursiôn que en muy pocos dominios se requiere. En ese 
caso, todos los planes RJT son de duraciôn finita y pueden ser enumerados. 

2. Podemos limitar la longitud de soluciones que nos preocupen. Como el espacio 
de estados es finito, un plan que tenga mas etapas que estados en el espacio de 
estados debe incluir un bucle que visite el mismo estado dos veces. Podremos 
perder poco si descartamos soluciones RJT de este tipo, y podremos controlar 
la büsqueda. 

3. Podemos adoptar un enfoque hfbrido que combine planificaciôn POP y RJT. La 
planificaciôn de orden parcial es por si misma suficiente para decidir si un plan 
existe, de modo que el problema hibrido es claramente decidible. 

Necesitamos tener un cuidado mayor con esta tercera opciôn. POP puede coordinar 
acciones primitivas de maneras diferentes, de modo que podriamos encontrarnos con 
soluciones que son muy duras de entender y que no tienen la organizaciôn jerârquica 
de los planes RJT. Un compromiso apropiado consiste en controlar la büsqueda hibrida 
de modo que la descomposicion de acciones sea preferible a la adiciôn de nuevas ac¬ 
ciones. Una forma de hacer esto es usar una funciôn de coste que nos proporcione un 
descuento para las acciones introducidas mediante descomposicion; cuanto mayor sea 
dicho descuento, mayor sera la similitud de la büsqueda con planificaciôn RJT y la 
soluciôn sera mas jerârquica. Los planes jerârquicos son normalmente mucho mas sen- 
cillos de ejecutar en sistemas realistas, y son mas sencillos de reparar cuando las co¬ 
sas van mal. 

Otra caracteristica importante de los planes RJT es la posibilidad de distribuir sub- 
tareas. Recordemos que distribuir subtareas significa el uso de la misma acciôn para im- 
plementar dos etapas diferentes en la descomposicion de un plan. Si prohibimos la 
distribuciôn de subtareas, enfonces cada instanciaciôn de una descomposicion d 'puede 
ser hecha de un solo modo, preferiblemente que de varios por esta razôn en gran medi- 
da se poda el espacio de büsqueda. Normalmente estos procesos de poda economizan 
tiempo y en el peor de los casos nos llevan a soluciones ligeramente mas largas que la 
ôptima. Por ejemplo, consideremos el objetivo «disfrutar de una luna de miel y formar 
una familia». La libreria de planes podrfa comenzar con «casarse y viajar a Hawai», para 
el primer subobjetivo, y «casarse y tener dos hijos» para el segundo objetivo. Sin dis¬ 
tribuciôn de tareas, el plan induira dos acciones de matrimonio diferentes, lo que fre- 
cuentemente es considerado como altamente indeseable. 

Un ejemplo interesante de los costes y beneficios de la distribuciôn de subtareas ocu- 
rre en la optimizaciôn de compiladores. Consideremos el problema de compilar la ex- 
presiôn tan (x) — sin (x). Muchos compiladores logran esto mediante la combinaciôn 
de dos subrutinas separadas de un modo trivial: todas las etapas de tan (x) se presentan 
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antes que las fases de sin (x). Pero considerando la siguiente aproximaciôn de Taylor a 
las funciones sin (x) y tan (x): 


.5 


, x j , 2x 
tan x ~ x + — + — 


17x" 
315 ’ 


sin x 


x 

6 


120 5.040 


Un planificador RJT con distribution de subtareas podrîa generar una solution mas efi- 
ciente, porque podrfa seleccionar para la implementaciôn de muchas etapas de sin (x) 
algunas etapas existentes de tan (x). Muchos compiladores no permiten esta clase de dis- 
tribuciôn interprocedural porque podrfa necesitar mucho tiempo para considerar todos 
los posibles planes compartidos. En lugar de eso, la mayorîa de los compiladores gene- 
ran cada subplan independientemente, y después quizâ modifican el resultado con un op- 
timizador mas concreto. 

Dadas todas las complicaciones adicionales causadas por la introducciôn de la des¬ 
composiciôn de acciones, / ; por qué creemos que la planification RJT es eficiente? Las 
fuentes actuales de complejidad son duras de analizar en la prâctica, de modo que con- 
sideraremos un caso idéal. Supongamos, por ejemplo, que queremos construir un plan con 
n acciones. Para un planificador no jerârquico con h acciones posibles en cada estado, el 
coste es 0{b"). Para un planificador RJT, supongamos una estructura de descomposiciôn 
muy regular: cada acciôn no primitiva tiene d posibles descomposiciones, cada una con 
k acciones en el nivel inferior siguiente. Queremos saber cuântos ârboles de diferentes 
descomposiciones existen con esa estructura. Si existen n acciones en el nivel mas pri- 
mitivo, entonces el orden de los niveles bajo la raiz es log^. n, de forma que el numéro de 
nodos de descomposiciôn interna es 1 + k + k 2 + ... + A logt " -1 = (n — 1 )/(k — 1). 
Cada nodo interno tiene d posibles descomposiciones, de forma que hay po¬ 

sibles descomposiciones de ârboles regulares que pueden ser construidos. Examinando 
esta formula, vemos que mantener a d pequeno y a k alto puede traducirse en grandes 
ahorros: esencialmente estamos tomando la raiz Ath del coste no-jerârquico, siby d son 
comparables. Del otro lado, la construction de una librerfa de planes que tenga un pe¬ 
queno nümero de grandes descomposiciones, pero aün con todo nos permita resolver pro- 
blemas, no es siempre posible. Otra forma verlo: grandes macros que son ütiles a lo largo 
de un amplio espectro de problemas son extremadamente valiosos. 

Otra razôn, y quizâ mejor, para creer que la planification RJT es eficiente es que fun- 
ciona en la prâctica. Casi todos los planificadores para aplicaciones de escala larga son 
planifie adores RJT, porque los planificadores RJT permiten a los expertos humanos pro- 
porcionar el conocimiento crucial acerca de cômo tratar tareas complejas de forma que 
planes grandes puedan ser construidos con poco esfuerzo computacional. Por ejemplo, 
O-Plan (Bell y Tate, 1985), que combina planificacion RJT con programaciôn de tare¬ 
as, ha sido utilizado para desarrollar planes de production para Hitachi. Un problema 
rfpico relaciona una linea de productos de 350 productos diferentes, 35 mâquinas de en- 
samblaje, y del orden de 2.000 operaciones diferentes. El planificador généra un pro- 
grama de 30 dfas de duration con ocho horas al dia, implicando a millones de etapas. 

La clave de la planification RJT, por tanto, estâ en la construction de una librerfa 
de planes conteniendo métodos conocidos para la implementaciôn de acciones comple¬ 
jas de alto nivel. Un método para construir la librerfa es aprender los métodos extraidos 
de la experiencia de résolution de problemas previos. Después de escrutar la experien- 
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cia en la construcciôn de planes, el agente puede guardar el plan en la libreria como un 
método para implementar la accion de alto nivel definida por la tarea. De este modo, el 
agente puede ser cada vez mas y mas competente a lo largo del tiempo cuando nuevos 
métodos son disenados sobre métodos antiguos. Un aspecto importante de este proceso 
de aprendizaje es la habilidad para generalizar los métodos que son construidos, elimi- 
nando detalles que son especificos de la instancia del problema (por ejemplo, el nom¬ 
bre del constructor o la direcciôn del terreno edificable) y manteniendo simplemente los 
elementos claves del plan. Los métodos para alcanzar esta clase de generalizaciôn son 
descritos en el Capitulo 19. Séria inconcebible que los humanos pudiesen ser tan com¬ 
petentes como lo son sin algunos de estos mecanismos. 


12.3 Planificacion y accion en dominios 
no deterministas 


INDETERMINACIÔN 

LIMITADA 


INDETERMINACIÔN 

ILIMITADA 


Hasta este momento hemos considerado exclusivamente dominios de planificacion clâ- 
sica que sean completamente observables, estâticos y deterministas. Ademâs de esto, he¬ 
mos asumido que las descripciones de las acciones son correctas y complétas. En estas 
circunstancias, un agente puede planificar primera y después ejecutar el plan «con los 
ojos cerrados». En un entorno con incertidumbre, al contrario, un agente debe usar sus 
percepciones para descubrir qué esta sucediendo mientras el plan esta siendo ejecutado 
y posiblemente modifique o reemplace el plan si algo inesperado sucede. 

Los agentes tienen que tratar tanto con informacion incomplète/ como incorrecte/. La 
incompletitud surge porque el mundo es parcialmente observable, no determinista, o am- 
bas cosas. Por ejemplo, la puerta para accéder a la oficina puede o no estar cerrada; una 
de mis llaves podria o no abrir la puerta en el caso de que estuviese cerrada; y yo podrfa 
ser consciente o no de esta clase de incompletitud en mi conocimiento. De este modo, 
mi modelo del mundo es débil pero correcto. Por otro lado, la incorrecciôn surge por¬ 
que el mundo no se comporta necesariamente como mi modelo predice; por ejemplo, 
puedo creer que mi llave abrirâ la puerta de la oficina, pero podria estar equivocado si 
las cerraduras han sido cambiadas. Sin la habilidad para tratar con informacion incorrecta, 
un agente puede llegar a ser mas torpe que un escarabajo estercolero (Apartado 2.2), que 
intenta tapar su hormiguero con una bola de estiércol incluso aunque durante el trayec- 
to le hayamos apartado la bola fuera de su alcance. 

La posibilidad de tener conocimiento completo y correcto dépende de cuânta inde- 
terminaciôn hay en el mundo. Con indeterminaciôn limitada, las acciones pueden te¬ 
ner efectos impredecibles, pero los posibles efectos pueden ser ordenados en los axiomas 
de descripciôn de acciones. Por ejemplo, cuando lanzamos una moneda, es razonable 
decir que el resultado sera Cara o Cruz. Un agente puede hacer frente a la indetermi¬ 
naciôn limitada disenando planes que trabajen en todas las posibles circunstancias. Con 
la indeterminaciôn ilimitada, por otro lado, el conjunto de posibles precondiciones o 
efectos o es desconocido o es demasiado extenso para ser enumerado completamente. 
Este podria ser el caso en entornos muy complejos o dominios dinâmicos taies como con- 
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ducir, planificacion econômica y estrategia militar. Un agente puede hacer frente a in- 
determinaciôn ilimitada solamente si esta preparado para revisar sus planes y/o su co- 
nocimiento base. La indeterminacion ilimitada esta estrechamente relacionada con el 
problema de cualificaciôn discutido en el Capitulo 10 (la imposibilidad de hacer una 
lista con todas las precondiciones requeridas para acciones en el mundo real que tengan 
los efectos buscados). 

Existen cuatro métodos de planificacion para trabajar con indeterminacion. Los dos 
primeros son adecuados para la indeterminacion limitada y los dos segundos para la in¬ 
determinacion ilimitada: 


PLANIFICACION 
SIN SENSORES 


PLANIFICACION 

CONDICIONAL 


ACCIONES 

SENSORIALES 


VIGILANCIA 
DE EJECUCIÔN Y 
PLANIFICACION 


PLANIFICACION 

CONTINUA 


— Planificacion sin sensores: es conocida también como planificacion conformis- 

ta, y es un método que construye planes estândares y secuenciales, disenados para 
ser ejecutados sin necesidad de percepciôn. Los algoritmos de planificacion sin sen¬ 
sores deben asegurar que el plan alcanza el objetivo en todas las posibles circuns- 
tancias, independientemente de si es correcto el estado inicial y los resultados 
actuales de las acciones. La planificacion sin sensores descansa sobre la coerciôn 
(la idea de que el mundo puede estar restringido a un estado dado incluso cuando 
el agente tiene solo informaciôn parcial acerca del estado actual). La coerciôn no 
siempre es posible, de modo que la planificacion sin sensores es frecuentemente 
inaplicable. La resoluciôn de problemas sin sensores, que engloban las büsquedas 
en espacios de estados de creencias, fueron descritos en el Capitulo 3. 

— Planificacion condicional: también conocida como planificacion contingente; 
este enfoque trata con indeterminacion limitada mediante la construcciôn de un 
plan condicional con diferentes ramas para las diferentes contingencias que pue- 
dan surgir. Al igual que en la planificacion clâsica, el agente hace planes prime- 
ro, y después ejecuta el plan que ha disenado. El agente encuentra cuâl es la parte 
del plan que debe ejecutar, incluyendo acciones sensoriales que evalüen las con- 
diciones apropiadas. En el problema del transporte aéreo, por ejemplo, podria- 
mos tener planes que ordenasen «Evaluar si el aeropuerto SFO esta operativo. 
Si es asi, volar alli; si no es asi, volar a Oakland». La planificacion condicional 
se explica en la Secciôn 12.4. 

— Vigilancia de ejecuciôn y replanificaciôn: en este enfoque, el agente puede usar 
cualquiera de las técnicas de planificacion previamente presentadas (clâsica, sin 
sensores o condicional) para construir un plan, pero ademâs emplea un procedi- 
miento de vigilancia de ejecuciôn para juzgar si el plan tiene capacidad de 
cumplirse dado el estado actual, o necesita ser revisado. La replanificaciôn ocu- 
rre cuando algo va mal. De esta forma, el agente tiene que afrontar indetermi- 
naciôn ilimitada. Por ejemplo, incluso si un agente con capacidad para replanificar 
no considéra en un momento la posibilidad de que el SFO esté cerrado, ahora es 
capaz de reconocer la situaciôn nueva cuando ocurre y acudir de nuevo al pla- 
nificador para encontrar un nuevo modo de alcanzar el objetivo. Los agentes con 
capacidad de replanificaciôn serân estudiados en la Secciôn 12.5. 

— Planificacion continua: todos los planificadores que hemos visto hasta ahora es- 
tân disenados para alcanzar un objetivo y después detenerse. Un planificador 
continuo esta disenado para persistir a lo largo del tiempo. Puede tratar con cir- 
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cunstancias inesperadas en el entorno, incluso si ocurre cuando el agente esta en 
el punto medio del desarrollo de un plan. También pueden abordar el abandono 
de objetivos y la creaciôn de objetivos adicionales mediante formulaciôn de ob- 
jetivos. Estudiaremos los mecanismos de planificacion continua en la Secciôn 12.6. 

Consideremos un ejemplo para clarificar las diferencias entre los distintos tipos de agen¬ 
tes. El problema es el siguiente: dado un estado inicial con una silla, una mesa y algu- 
nas latas de pintura, de colores desconocidos, alcanzar el estado donde la silla y la mesa 
tengan el mismo color. 

Un agente de planificacion clâsico no podria tratar este problema, porque el esta¬ 
do inicial no esta completamente especificado (no conocemos de qué color son los mue- 
bles). 

Un agente de planificacion sin sensores deberfa encontrar un plan que actuase sin 
la necesidad de requérir sensores durante la ejecucion del plan. La soluciôn consiste en 
abrir todas las latas de pintura y pintar tanto la silla como la mesa, de este modo forza- 
mos que tengan el mismo color (incluso sin que el agente conozca qué color es). La idea 
de coerciôn es la mas apropiada cuando las proposiciones son imposibles de percibir. Por 
ejemplo, los médicos frecuentemente prescriben antibiôticos de amplio espectro preferi- 
blemente al uso de un plan condicional que consista en realizar una muestra de sangre, 
esperar los resultados, y después prescribir un antibiôtico mas especifico. Se hace esto 
porque los retrasos y los costes de las pmebas de sangre son normalmente elevados. 

Un agente de planificacion condicional puede generar mejores planes: primeramente, 
es sensible al color de la mesa y la silla; si los colores son iguales, el plan esta termina- 
do. Si no coinciden los colores, es sensible a las étiquetas que figuran en las latas de pin¬ 
tura; si una de las latas es del mismo color que uno de los elementos, mesa o silla, enfonces 
pintamos de dicho color la otra pieza. En otro caso, ejecutarâ la orden de pintar ambos 
elementos del mismo color. 

Un agente de replanificaciôn puede generar el mismo plan que el planifie ador con¬ 
dicional, o podria generar versiones mas cortas, en principio, y acudir al resto en tiempo 
de ejecucion si fuese necesario. Podria tratar con la incorrecciôn de su propia descripciôn 
de acciones. Por ejemplo, supongamos que creemos que la acciôn Pintar ( objeto, color) 
tiene de manera determinista el efecto Coloriobjeto , color). Un planificador condicional 
podria sencillamente asumir que el efecto ha ocurrido una vez que la acciôn ha sido eje- 
cutada, pero un agente de replanificaciôn podria evaluar el efecto, y si no fuese correc- 
to (quizâ porque el agente no haya sido cuidadoso y haya olvidado un lugar), podria 
enfonces replanificar y pintar ese lugar olvidado. Regresaremos a este ejemplo en el Apar- 
tado 12.5. 

Un agente de planificacion continua, ademâs de tratar con sucesos inesperados, pue¬ 
de revisar sus propios planes adecuadamente si, digamos, anadimos el objetivo de ce- 
nar sobre la mesa, de modo que el plan para pintarla debe ser pospuesto. 

En el mundo real, los agente usan una combinaciôn de estos diferentes enfoques. Los 
constmctores de coches venden ruedas de repuesto y airbags, que son una manifesta- 
ciôn fisica de algunas ramas de planes condicionales disenados para tratar con pincha- 
zos o accidentes; por otro lado, gran parte de los conductores nunca consideran estas 
posibilidades, de modo que responden ante pinchazos y accidentes como agentes de re- 
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12.4 


EFECTOS 

DISYUNTIVOS 


planificaciôn. En general, los agentes crean planes condicionales solo frente a aquellas 
contingencias que tengan importantes consecuencias. De esta forma, un conductor de 
coches contemplando la posibilidad de un viaje a lo largo del desierto del Sahara debe 
considerar expllcitamente la posibilidad de perturbaciones, mientras que un viaje al su- 
permercado requiere menos planificaciôn previa. 

Los agentes que describimos es este capitulo estân disenados para tratar con inde- 
terminaciôn, pero no son capaces de plantear intercambios entre la probabilidad de éxi- 
to y el coste de la construcciôn de un plan. En el Capitulo 16 presentaremos herramientas 
adicionales para tratar con estas situaciones. 


Planificaciôn condicional 


La planificaciôn condicional es un modo de tratar con la incertidumbre evaluando qué 
esta realmente sucediendo en el entorno a predeterminados instantes del plan. La plani- 
ficaciôn condicional es la mas simple para explicar los entornos completamente obser¬ 
vables, de modo que comenzaremos con este caso. El caso parcialmente observable es 
mas complicado, pero mas interesante. 

Planificaciôn condicional en entornos completamente 
observables 

La compléta observabilidad en un entorno significa que el agente siempre conoce el esta- 
do actual. Si el entorno es no-determinista, el agente no sera capaz de predecir el resultado 
de sus acciones. Un agente de planificaciôn condicional ataca el no-determinismo mediante 
la construcciôn dentro de un plan (en tiempo de planificaciôn) de etapas condicionales que 
evaluarân el estado del entorno (a tiempo de ejecuciôn) para decidir qué hacer en el ins¬ 
tante siguiente. El problema, por tanto, es cômo construit' estos planes condicionales. 

Utilizaremos como entorno de trabajo en nuestros ejemplos el mundo aspirado- 
ra, cuyo espacio de estados, para el caso determinista, se présenta en el Apartado 3.2. 
Recordemos que las acciones disponibles son Izquierda, Derecha, y Aspirar. Necesi- 
tamos algunas proposiciones para définir los estados: sugerimos que AtI{AtD ) sea co- 
rrecta si el agente esta en el estado izquierdo (derecho) 5 , y que CleanI(CleanD ) sea 
correcta si el estado izquierdo (derecho) esta limpio. Lo primero que necesitamos es 
incrementar la expresividad del lenguaje Strips para tener en cuenta el no-determinis- 
mo. Para hacer esto, utilizamos acciones que tengan efectos disyuntivos, esto es, que 
la acciôn puede tener dos o mas resultados diferentes en cualquier momento en que sea 
ejecutado. Por ejemplo, supongamos que moverse hacia Izquierda algunas veces fra- 
case. Por tanto, la descripciôn normal de la acciôn 

Acciôn(Izquierda, Prhcond:/UD, Efecto:A?7) 


5 Obviamente, AtD es correcte) si y solo si Atl es verdadero, y viceversa. Utilizamos dos proposiciones para 
mejorar la legibilidad. 





494 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


EFECTOS 

CONDICIONALES 


FASES 

CONDICIONALES 


JUEGOS FRENTE A 
NATURALEZA 


debe ser modificada para incluir un efecto disyuntivo: 

Action (.Izquierda, Precond :AtD, Efecto:/!?/ v AtD) (12.1) 

También encontramos ütil permitir acciones que tengan efectos condicionales, donde 
el efecto de la accion dépende del estado en el que sea ejecutado. Los efectos condicio¬ 
nales aparecen en el slot Efecto de una accion, y tienen la sintaxis «cuando <condi- 
ciôn>\ <efecto>». Por ejemplo, para modelar la accion Aspirar, expresamos 

Action (Aspirar , Precond:, Efecto:( cuando Atl: Limpiarl) 
a (cuando AtD: LimpiarD )) 

Los efectos condicionales no introducen indeterminaciôn, pero pueden ayudar a mode- 
larlo. Por ejemplo, supongamos que tenemos una tortuosa aspiradora que algunas veces 
descarga basura sobre el destino cuando se mueve, pero solo si el destino esta limpio. 
Este hecho puede ser modelado con una descripciôn del tipo 

Action (Izquierda , Precond:/\/D, Efecto:/!?/ v (Atl a cuando Limpiarl: 
n Limpiarl )), 

lo cual es tanto disyuntivo como condicional 6 . Para crear planes condicionales, necesi- 
taremos fases condicionales. Las escribiremos usando la sintaxis «si <evaluar> en¬ 
fonces plan-A y en caso contrario planS», donde <evaluar> es una funciôn booleana 
del estado de las variables. Por ejemplo, una fase condicional para el mundo aspirado¬ 
ra puede ser, «si Atl a Limpiarl enfonces Derecha y en caso contrario Aspirar». La eje- 
cuciôn de tal fase prosigue de la manera obvia. Mediante la articulaciôn de fases 
condicionales, los planes se transforman en ârboles. 

Queremos planes condicionales que trabajen independientemente del resultado de 
la action que ocurra. Ya nos hemos topado con este problema antes, de un modo dife- 
rente. En juegos de dos-jugadores (Capitulo 6), queriamos que cada movimiento gana- 
se independientemente de como se moviese el oponente. Por esta razôn, los problemas 
de planificaciôn no-determimstica son frecuentemente llamados juegos frente a natu- 
raleza. 

Consideremos un ejemplo especifico del mundo aspiradora. El estado inicial con¬ 
siste en el robot situado en la posiciôn de la derecha de un mundo limpio; como el en- 
torno es completamente observable, el agente conoce la descripciôn compléta del estado, 
AtD a Limpiarl a LimpiarD. El estado objetivo consiste en el robot en la posiciôn de la 
izquierda de un mundo limpio. Esto podria ser trivial, mientras no consideremos que la 
aspiradora algunas veces deposita suciedad cuando se mueve a una posiciôn destino que 
se encuentre limpia, o que deposite algo de suciedad si Aspirar se aplica a una posiciôn 
limpia. 

Un «juego de tipo ârbol» para este modelo de entorno se muestra en la Figura 12.9. 
Las acciones son seleccionadas por el robot en los «estados» nodo del ârbol, y la natu- 
raleza décidé qué resultado ocurre en los nodos «oportunidad», representados como cir- 


6 El efecto condicional cuando Limpiarl:-* Limpiarl puede parecer un poco extrano. Recordemos, sin em¬ 
bargo, que aqui Limpiarl se refiere a la situaciôn previa a la accion y ~* Limpiarl se refiere a la situaciôn pat - 
terior a la accion. 
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Figura 12.9 Los dos primeras niveles del ârbol de büsqueda para el mundo aspiradora donde al- 
gunas veces deposite suciedad cuando se mueve. Los nodos estado son nodos OR donde alguna ac- 
ciôn puede ser seleccionada. Los nodos oportunidad, representados como circulos, son nodos AND 
donde cada resultado puede ser manipulado, tal como indica el arco de union de las ramas de sali- 
da. La soluciôn se muestra en llnea gruesa. 


culos. Una soluciôn sera un sub-ârbol que (1) tenga un nodo objetivo en cada «hoja», 
(2) especifique una acciôn en cada uno de sus nodos «estado», y (3) incluya cada rama 
resultado en cada uno de sus nodos «oportunidad». La soluciôn se muestra en lfneas grue- 
sas en la figura; el grafo corresponde al plan [Izquierda, si Atl a Limpiarl a LimpiarD 
entonces [ ] en caso contrario Aspirar ]. (Hasta ahora, como estamos usando un plani- 
ficador de espacio de estados, los tests en las fases condicionales consistirân en des- 
cripciones de estado complétas.) 

Para soluciones exactas de juegos, utilizaremos el algoritmo minimax (Figura 6.3). 
Para planificaciôn condicional, tendremos dos modificaciones destacables. En primer lu- 
gar, los nodos MAX y min pueden convertirse en nodos OR y and. Intuitivamente, el plan 
necesita tomar alguna acciôn en cada estado que alcanza, pero debe tratar con todos los 
resultados de la acciôn que tome. En segundo lugar, el algoritmo necesita retornar a un 
plan condicional preferible a solo un ünico movimiento. En un nodo OR, el plan es üni- 
camente la acciôn seleccionada, seguida por cualquier cosa que venga después. En un 
nodo and, el plan es una articulaciôn de cadenas «si-entonces-en caso contrario» espe- 
cificando subplanes para cada resultado; los tests en estas fases son las descripciones com¬ 
plétas de los estados 7 . 

Formalmente hablando, el espacio de büsqueda que hemos definido es un grafo 
and-or. En el Capltulo 7, los grafos and-or se ponen de manifiesto mediante clâu- 
sulas de inferencia de Horn. Aquf, las ramas del ârbol son acciones mas que etapas de 


7 Dichos planes podrian ser descritos también usando casos. 
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inferencia lôgica, pero el algoritmo es el mismo. La Figura 12.10 proporciona un al- 
goritmo recursivo de büsqueda en profundidad para un grafo de büsqueda and-or. 


funcion Grafo de Büsqueda And-Or ( problema ) devuelve un plan condicional, o error 
Büsqueda Or (Estado Inicial [problema], problema, [ ]) 


funcion Büsqueda Or {estado, problema, ruta ) devuelve un plan condicional, o error 
si Test-Objetivo [problema]{estado) enfonces devuelve el plan nulo 
si estado esta en ruta enfonces devuelve error 

para cada acciôn, conjunto estados en Sucesores [problema](estado) hacer 
plan Büsqueda And {conjunto_estados, problema,[estado \ ruta]) 
si plan A error enfonces devuelve [acciôn | plan] 
devuelve error 


funcion Büsqueda And {conjunto_estados, problema, ruta) devuelve un plan condicional, 
o error 

para cada s t en conjunto estados hacer 
plan- <— Büsqueda Or(s,, problema, ruta) 
si plan = error entonces devuelve error 
devuelve [si .s , entonces plan l en caso contrario si s 2 entonces plan, ... 
si s n _ j entonces plan n _, en caso contrario plan n ] 


Figura 12.10 Un algoritmo para buscar grafos and-or generados por entomos no deterministas. 
Suponemos que Sucesores devuelve una lista de acciones, asociadas cada una de ellas con un con¬ 
junto de salidas posibles. El objetivo es encontrar un plan condicional que alcanza un estado meta 
en toda circunstancia. 


Un aspecto clave del algoritmo es la forma en la que se enfrenta a ciclos, que fre- 
cuentemente aparecen en problemas de planificacion no-determinista (por ejemplo, si 
alguna acciôn a veces no tiene efecto, o si un efecto no intencionado puede ser corregi- 
do). Si el estado actual es idéntico a otro estado de la soluciôn que viene de la raiz, en¬ 
tonces devolverâ un error. Esto no significa que no haya soluciôn para el estado actual; 
simplemente nos dice que si existe una soluciôn no-ciclica, debe poder alcanzarse des- 
de la primera encamaciôn del estado actual, de forma que la nueva encamaciôn pueda 
ser descartada. De este modo, certificamos que el algoritmo termina en cada espacio de 
estado finito, pues cada ruta debe alcanzar un objetivo, un estado final, o un estado re- 
petido. Notemos que el algoritmo no chequea si el estado actual es una repeticiôn de un 
estado de alguna otra ruta desde la raiz. El Ejercicio 12.15 investiga esta situaciôn. 

Los planes devueltos por Grafos de Büsqueda And-Or contienen etapas condi- 
cionales que evalüan la descripciôn del estado completo para decidir qué rama selec- 
cionamos. En muchos casos, tendremos que contar con menos tests exhaustivos. Por 
ejemplo, el plan soluciôn de la Figura 12.9 podrfa ser escrito sencillamente como [Iz- 
quierda, si Limpiarl entonces [ ] en caso contrario Aspirai']. Esto es porque el test üni- 
co, Limpiarl, basta para dividir los estados del nodo-AND en dos conjuntos de semiacierto, 
de modo que después del test el agente conoce exactamente en qué estado se encuentra. 
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SOLUCION Cl'CLICA 

ETIQUETA 


De hecho, una sérié de tests «si-entonces-en caso contrario» de variables simples siem- 
pre basta para dividir un conjunto de estados en semi-aciertos, gracias a que el estado 
es completamente observable. Podriamos, por tanto, restringir los tests a variables sim¬ 
ples, sin pérdida de generalidad. 

Existe una complicaciôn final que frecuentemente emerge en dominios no-determi- 
nistas: las cosas no siempre funcionan a la primera, y se tiene que intentar de nuevo. Por 
ejemplo, consideremos el problema de la aspiradora «triple Murphy», el cual (ademâs de 
sus hâbitos establecidos previamente) algunas veces fracasa en el movimiento ordenado, 
por ejemplo, Izquierda puede tener el efecto disyuntivo Atl v AtD, como en la Ecuaciôn 
(12.1). Por tanto, ahora no se garantiza que el plan [ Izquierda , si Limpiarl entonces [ ] 
en caso contrario Aspirar ] funcione. La Figura 12.11 muestra parte del grafo de büs- 
queda; obviamente no hay mas soluciones acfclicas, y el Grafo de BÜSQUEDA And-Or 
puede terminar sin error. Existe, sin embargo, una soluciôn ciclica, que consiste en per- 
manecer intentando Izquierda hasta que funcione. Podemos expresar esta soluciôn ana- 
diendo una étiqueta para denotar algunas porciones del plan y utilizaremos la étiqueta 
mas tarde en lugar de repetir de nuevo el plan. De este modo, la soluciôn ciclica es 

[/,: Izquierda, si AtD entonces / en caso contrario si Limpiarl entonces [ ] 
en caso contrario Aspirar ] 

(Una mejor sintaxis para la parte del bucle en el plan podria ser «mientras AtD hacer 
Izquierda».) Las modificaciones necesarias para los Grafos de Btjsqueda And-Or 
vienen explicadas en el Ejercicio 12.16. La ejecuciôn clave es que un bucle que en el es- 
pacio de estado regresa al estado I se traduce en un bucle en el plan que vuelve al pun- 
to donde el subplan para el estado I es ejecutado. 

Tenemos entonces la habilidad para sintetizar planes complejos que se asemejan a 
programas, con bucles y estructuras condicionales. Desafortunadamente, esto bucles son, 
potencialmente bucles infinitos. Por ejemplo, en la representaciôn de acciones del mun- 
do «triple Murphy» nada dice que Izquierda vaya a tener éxito. Los planes clclicos, por 
tanto, son menos deseables que los planes acfclicos, pero pueden ser considerados so¬ 
luciones, siempre que cada «hoja» sea un estado objetivo y pueda ser alcanzable desde 
cualquier punto del plan. 
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Planificaciôn condicional en entornos parcialmente 
observables 

La seccion precedente se dedicaba a explicar los entornos completamente observables, 
con la ventaja de que los tests condicionales pueden evaluar cualquier situaciôn y de ma- 
nera segura obtenemos una respuesta. En el mundo real, la observabilidad parcial es mu- 
cho mas comün. En el estado inicial de problema de planificaciôn parcialmente 
observable, el agente conoce solo una cierta parte del estado actual. El camino mas sim¬ 
ple para modelar esta situaciôn es decir que el estado inicial pertenece a un conjunto 
de estados; el conjunto de estados es una forma de describir el estado de creencias ini- 
ciales del agente 8 . 

Supongamos que un agente del mundo aspiradora conoce que se encuentra en la po- 
siciôn D erecha y que dicha posiciôn se encuentra limpia, pero que no puede darse cuen- 
ta de la presencia o ausencia de suciedad en otras posiciones. Entonces tan pronto como 
conozca esta situaciôn podrfa encontrarse en dos posibles estados: la posiciôn de su 7z- 
quierda podria estar tanto limpia como sucia. Este estado de creencias es etiquetado con 
A en la Figura 12.12. Esta muestra parte del grafo and-or para el mundo de aspiradora 
que llamaremos «reciproco doble Murphy», en el cual la suciedad puede encontrarse a 
la Izquierda tras el agente cuando éste abandone una posiciôn limpia 9 . Si el mundo fue- 
se completamente observable, el agente podria construir una soluciôn ciclica de la for¬ 
ma «Moverse hacia la derecha e izquierda, aspirando suciedad siempre que aparezca, 
hasta que todas las posiciones estân limpias y me encuentre en la posiciôn de la iz¬ 
quierda». ( Véase el Ejercicio 12.16.). Desafortunadamente, con sensores locales de su¬ 
ciedad, este plan no es ejecutable, porque el valor de verdad del test «ambas posiciones 
estân limpias» no puede ser determinado. 

Hechemos un vistazo a como es construido el grafo and-or. Partiendo del estado de 
creencia A, mostramos el resultado de moverse hacia la Izquierda (el resto de acciones 
no tienen sentido). Como el agente puede olvidar suciedad detrâs de él, los dos posibles 
mundos iniciales se convierten en cuatro posibles mundos, como se muestra en B y C. 
Los mundos constituyen dos estados de creencias posibles inicialmente, clasificados por 
el sensor de informaciôn disponible 10 . En S, el agente conoce Limpiarl; en C conoce 
-'Limpiarl. Desde C, limpiar la suciedad mueve al agente hacia B. Desde B , moverse 
hacia la Derecha podria o no dejar suciedad tras de él, de modo que tenemos de nuevo 
cuatro posibles mundos, divididos de acuerdo con el conocimiento del agente, LimpiarD 
(retorno A) o -! LimpiarD (estado de creencia D). 

Resumiendo, los entornos no-deterministas y parcialmente observables nos propor- 
cionan un grafo and-or de estados de creencia. Los planes condicionales pueden ser 
encontrados, por lo tanto, usando exactamente el mismo algoritmo que en el caso com¬ 
pletamente observable, llamado Grafo de Büsqueda And-Or. Otra forma de entender 


8 Estos conceptos son introducidos en la Seccion 3.6 que el lector puede consultar antes de proseguir. 

9 Padres con ninos pequenos encontrarân familiar este fenômeno. 

10 Nôtese que no estân clasificados porque haya suciedad tras el agente al moverse. La ramificaciôn en el 
espacio de estados de creencias esta causado por resultados de conocimiento altemativo, y no resultados fï- 


sicos. 
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Figura 12.12 Parte del grafo and-or para el mundo aspiradora «doble Murphy reciproco», en el 
cual la suciedad puede a veces ser abandonada tras el agente cuando éste se mueve hacia una po- 
siciôn limpia. El agente no es sensible a suciedad en otras posiciones. 


qué sucede es comprobar que el estado de creencia del agente es siempre completamente 
observable (siempre conoce lo que conoce). La resolucion «estândar» de problemas com¬ 
pletamente observables es simplemente un caso especial en el que cada estado de cre¬ 
encia es un conjunto de semi-aciertos que contiene exactamente un estado fisico. 

Hem os acabado? No, aün no. Necesitamos decidir cômo los estados de creencia de- 
berian ser representados, cômo los sensores funcionan y cômo las descripciones de las 
acciones deberân ser escritas en este nuevo escenario. 

Existen très opciones bâsicas para los estados de creencia: 

1. Conjuntos de descripciones de estado complétas. Por ejemplo, el estado de cre- 
encias inicial de la Figura 12.12 es 

{( AtD a LimpiarD a Limpiarl), (AtD a LimpiarD a -'Limpiarl) ( 

Esta representaciôn es sencilla para trabajar con ella pero muy costosa: si exis¬ 
ten n proposiciones booleanas definiendo el estado, entonces un estado de 
creencias puede contener 0(2") descripciones de estados fisicos, cada uno de 
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orden 0(n). Estados de creencia exponencialmente grandes ocurrirân cada vez 
que el agente conozca solamente una fraccion de las proposiciones (cuantas me- 
nos conozca, mas posibles estados podria alcanzar). 

2. Sentencias logicas que capturan exactamente el conjunto de posibles mundos en 
el estado de creencias. Por ejemplo, el estado inicial puede ser escrito como 

AtD a LimpiarD 

Obviamente, cada estado de creencia puede ser capturado exactamente por una 
ünica sentencia lôgica; en este caso, podremos usar la disyunciôn de todas las 
descripciones de estado conjuntivos, aunque nuestro ejemplo muestre que pu- 
diesen existir sentencias mas compactas. 

Un inconveniente de las sentencias logicas es que, como existen muchas di- 
ferentes, las sentencias logicamente équivalentes describan el mismo estado de 
creencia, tal estado evaluado en el algoritmo de büsqueda en grafos puede re¬ 
quérir demostracion de teoremas generales. Por esta razôn, preferimos una 
representacion canônica para sentencias en las que cada estado de creencias se 
corresponda con ünicamente una sentencia 11 . Tal clase de representacion usa una 
secuencia de literales ordenados por nombre de la proposicion, AtD a LimpiarD 
es un ejemplo. Esta es simplemente la representacion del estado estândar bajo 
la hipotesis de mundo-abierto que presentamos en el Capitulo 11 . No todas las 
sentencias logicas pueden ser escritas de tal manera (por ejemplo, no hay for¬ 
ma de représentai' Atl v LimpiarD) pero pueden ser tratados bastantes dominios. 

3. Proposiciones de conocimiento describiendo el conocimiento del agente. (Véa- 
se también la Seccion 7.7.) Para el estado inicial tenemos, 

K(AtD)/\K(LimpiarD) 

En esta expresion, K se traduce por «conoce que» y K(P) significa que el agente 
conoce que P es cierto 12 . Con proposiciones de conocimiento, utilizamos la hi- 
pôtesis del mundo-cerrado (si una proposicion de conocimiento no aparece en 
la lista, se asume que es incorrecto). Por ejemplo, -i K(LimpiarI) y ->K{-<Limpia- 
rl) estân implicitas en la sentencia anterior, de forma que se captura el hecho si- 
guiente: el agente es ignorante acerca del valor de verdad de Limpiarl. 

Observamos que la segunda y la tercera opcion son, a grandes rasgos, équivalentes; usa- 
remos la tercera opcion, las proposiciones de conocimiento, porque nos ofrece una des- 
cripciôn mas vivida del sentido y porque ya conocemos como escribir descripciones 
Strips con la hipotesis del mundo-cerrado. 

En ambas opciones, cada simbolo proposicional puede aparecer en uno de los si- 
guientes modos: positivo, negativo y desconocido. Por lo tanto, hay exactamente 3" po¬ 
sibles estados de creencia que pueden estar descritos de este modo. Enfonces, el conjunto 


11 La representacion canônica mâs conocida para un sentencia proposicional genérica es el diagrama de de¬ 
cision binario o DDB (Bryant, 1992). 

12 Es la misma notacion usada para agentes basados en circuitos mencionados en el Capitulo 7. Algunos au¬ 
tores lo usan para hacer entender «conoce si P es verdad». La traducciôn entre las dos representaciones es 
directa. 
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SENSORES 

AUTOMÂTICOS 


SENSORES ACTIVOS 

ACCIONES 

SENSORIALES 


de los estados de creencias es el süper-conjunto (conjunto de subconjuntos) del conjunto 
de estados fîsicos. Existen 2” estados fïsicos, de modo que tenemos 2" estados de creen¬ 
cias, lejos de las 3”, de forma que las opciones 2 y 3 son bastante restrictivas como re- 
presentaciones de estados de creencias. Esto actualmente se créé que es inévitable, 
porque cualquier esquema capaz de représentai * cada posible estado de creencia re- 
querirâ bits para représentai' cada uno en el peor de los casos. Nuestro sencillo esque¬ 
ma requiere solamente 0(n) bits para representar cada estado de creencia, intercambiando 
expresividad por solidez. Afortunadamente, los esquemas estân clausurados bajo ac- 
tualizacion Strips: tan pronto como lo expongamos en axiomas Strips, y si comenza- 
mos con un estado que représenta creencias, todos los estados de creencia posteriores 
serân representables también. 

Necesitamos explicar como funcionan los sensores. Tenemos dos opciones. Pode- 
mos tener sensores automâticos, que permiten, a cualquier instante, que el agente ob- 
tenga todas las percepciones asequibles. El ejemplo de la Figura 12.12 asume sensores 
automâticos de localizaciôn y suciedad local. Alternativamente, podemos mencionar los 
sensores activos, en los cuales las percepciones son obtenidas solamente mediante la 
ejecucion de acciones sensoriales especificas taies como EvaluarSuciedad y Evaluai'- 
Localizaciôn. Abordaremos el estudio de cada tipo de sensores por turnos. 

Escribamos una descripciôn de una acciôn utilizando proposiciones de conoci- 
miento. Supongamos que el agente se mueve a la Izquierda en el mundo del «doble 
Murphy reciproco», con sensores de suciedad automâticos y locales; de acuerdo con las 
réglas de este mundo, el agente podria o no dejar suciedad tras de si en el caso de que 
la posicion estuviese limpia. Como efecto fîsico podria ser disyuntivo; pero como un efec- 
to de conocimiento, simplemente élimina el conocimiento del agente de LimpiarD. El 
agente también conocerâ si Limpiarl es verdadero, de un modo o de otro, gracias a los 
sensores de suciedad local, y conocerâ que supone Atl\ 


Acciôn(Izquierda, PrecondM/D, 

Efecto: K(AtI) a -i. K(AtD) a cuando LimpiarD'. -> KiEimpiarD ) a 

cuando Limpiarl'. K(LimpiarI) a (12.2) 

cuando Limpiarl : KlpLimpiarl )) 


Destaquemos que tanto las precondiciones como las condiciones cuando, son proposi¬ 
ciones simples, no proposiciones de conocimiento. Esto es tal como debia ser porque 
los resultados de las acciones dependen del mundo actual, pero ^como chequear la cer- 
teza de aquellas condiciones cuando todo lo que tenemos es un estado de creencia? Si 
el agente conoce un proposicion, digamos K(AtD), en el estado de creencia actual, en¬ 
fonces la proposicion debe ser verdadera en el estado fîsico actual, y ciertamente la ac- 
cion es aplicable. Si el agente no conoce una proposicion (por ejemplo, la condicion 
cuando Limpiarl ) enfonces el estado de creencia debe incluir mundos en los cuales Lim¬ 
piarl sea verdad y mundos en los cuales Limpiarl sea falso. Esto hace crecer mültiples 
estados de creencias résultantes de las acciones. De este modo, si el estado inicial es 
( K(AtD ) a K{LimpiarD)), después de moverse hacia Izquierda, los dos estados de cre¬ 
encias résultantes son ( K(AtI) a K(Limpiarl)) y ( K(AtI ) a K(^Limpiarl)). En ambos ca¬ 
sos, el valor de verdad de Limpiarl es conocido, de forma que el test Limpiarl puede ser 
usado en el plan. 
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Con sensores activos (considerândolos opuestos a los sensores automâticos), el 
agente adquiere nuevas percepciones solo consultândolas. De este modo, después de mo- 
verse hacia Izquierda, el agente no conocerâ si la posiciôn a mano izquierda esta sucia, 
de modo que los dos efectos condicionales no aparecerân mas en la descripciôn de la 
acciôn de la Ecuaciôn (12.2). Para conocer si la posiciôn esta sucia, el agente puede Che¬ 
quearSuciedad: 

Acciôn ( ChequearSuciedad , 

Efecto: cuando Atl a Limpiarl: K(LimpiarF) a 

cuando Atl a -i Limpiarl: K(—•Limpiarl) a (12.3) 

cuando AtD a LimpiarD: K(LimpiarD) a 
cuando AtD a -i LimpiarD: KipLimpiarD)) 

Es fâcil probar que Izquierda seguido por ChequearSuciedad en el dispositivo de sen¬ 
sores activos da como resultado los mismos dos estados de creencia que ejecutar Izquierda 
con sensores automâticos. Con sensores activos, existe siempre el caso de acciones fï- 
sicas que hacen corresponder a un estado de creencia un ünico estado de creencia suce- 
sora. Multiples estados de creencia pueden ser introducidos solamente por acciones 
sensoriales, que proporcionan conocimiento especifico y por lo tanto permiten tests con¬ 
dicionales que pueden ser usados en los planes. 

Hemos descrito un enfoque general para la planificaciôn condicional basada en büs- 
quedas and-or sobre el espacio de estados. Este enfoque ha demostrado ser bastante efi- 
ciente en algunos problemas, salvo algunos problemas intratables. Teôricamente, se 
puede mostrar que la planificaciôn condicional pertenece a un tipo de complejidad ma- 
yor que la de la planificaciôn clâsica. Remarcamos que la definiciôn de la clase NP es 
como sigue: una soluciôn candidata puede ser chequeada para ver si es realmente una 
soluciôn en tiempo polinomial. Esto es correcto para planes clâsicos, de modo que el pro- 
blema de la planificaciôn clâsica es un NP. Pero en planificaciôn condicional, un can¬ 
didate) debe ser chequeado para comprobar si, para todos los posibles estados, existe 
alguna ruta a lo largo del plan que satisfaga el objetivo. Evaluar la combinaciôn «to- 
dos/algunos» no puede ser hecho en tiempo polinomial, de forma que la planificaciôn 
condicional es mâs costosa que NP. La ünica salida es ignorar algunas de las posibles 
contingencias durante la fase de planificaciôn y tratarlas solo cuando ellas realmente ocu- 
rran. Este es el enfoque que expondremos en la siguiente secciôn. 


12.5 Vigilancia de ejecucion y replanifîcacion 


Un agente de vigilancia de ejecucion chequea sus percepciones para comprobar si todo 
va de acuerdo con el plan. La ley de Murphy nos dice que incluso los mejores planes 
humanos y los agentes de planificaciôn condicional frecuentemente fracasan. El pro- 
blema estâ indeterminado ilimitadamente (algunas circunstancias no anticipadas siem¬ 
pre surgirân para las cuales las descripciones de las acciones de los agentes no son 
correctas). Por tanto, la vigilancia de la ejecucion es necesaria en entornos reales. Con- 
sideraremos dos tipos de vigilancia de ejecucion: uno simple, pero débil, llamado 
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vigilancia de acciones, por medio de la cual el agente chequea el entorno para verifi- 
car que la siguiente acciôn funcionarâ, y otro mas complejo pero mas efectivo llama- 
do vigilancia de planes, en el cual el agente verifica el plan que permanece de un modo 
global. 

Un agente de replanifïcaciôn conoce qué hacer cuando algo inesperado sucede: in- 
vocar un plan de nuevo para disponer de un nuevo plan que le permita alcanzar el obje- 
tivo. Para evitar consumir demasiado tiempo planificando, normalmente se intenta 
reparar el plan viejo para encontrar el modo en el que desde el estado actual inesperado 
se vuelva a disponer de un plan. 

Como ejemplo, recordemos el mundo aspiradora del doble Murphy de la Figura 12.9. 
En este mundo, moverse a posiciones limpias, a veces, supone depositar suciedad en ta¬ 
ies sitios; pero ;y si el agente no conoce o no le preocupa este hecho? En ese caso, la 
solucion es muy simple: [Izquierda ]. Si no existe suciedad descargada cuando el plan 
esta siendo ejecutado, el agente detectarâ que se alcanza un objetivo. En caso contrario, 
como la precondiciôn Limpiarl de la etapa Final no esta satisfecha, el agente generarâ 
un nuevo plan: [Aspirar], La ejecucion de este plan siempre es exitosa. 

Juntos, la vigilancia de ejecucion y la replanifïcaciôn forman una estrategia general 
que puede ser aplicada tanto a entornos observables completamente como parcialmen- 
te, y con amplia variedad de representaciones de replanifïcaciôn incluyendo espacio de 
estados, orden parcial y planes condicionales. Un esquema simple de planificaciôn en 
el espacio de estados se muestra en la Figura 12.13. El agente de planificaciôn comien- 


funciôn Agente-de-Replanificaciôn (percepciân) devuelve una acciôn 
estâtico: KB, base de conocimiento (incluye descripciones de acciones) 
plan, un plan, inicialmente [ ] 
plan_completo, un plan, inicialmente [ ] 
objetivo, un objetivo 

Decir (KB, Generar-Percepciôn-Sentencia ( percepciân, t)) 
actual *— Descripciôn-Estado (KB, t) 
si plan = [ ] entonces 

plan_completo <— plan <— Planner (actual, objetivo, KB) 
si Precondiciones(Primero(/i/û«)) no actualmente verdadero en KB entonces 
candidatos <— ORDENAR(plan_entero, ordenado por distancia a actual) 
encontrar un estado s en candidatos de modo que 
error réparation Planner (actual, s, KB) 
continuation <— poner a la cola de plan_completo comenzando en 5 
plan_completo plan <— Adjuntar (réparation, continuation) 
devuelve Pop (plan) 


Figura 12.13 Agente de replanificaciôn y vigilancia de ejecucion. Utiliza un algoritmo de pla- 
nificacion de espacio de estados llamado Planner como una subrutina. Si las precondiciones de 
la siguiente acciôn no son apropiadas, el agente inicia bucles a partir de p puntos posibles en el 
plan_completo, intentando encontrar una ruta que Planner identifique como un plan. Llamamos 
a esta ruta réparation. Si Planner tiene éxito y encuentra un modo de repararlo, el agente adjun- 
ta réparation y lo pone a la cola del plan tras p, para construir el nuevo plan. El agente posterior- 
mente regresa a la primera etapa en el plan. 
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VIGILANCIA 
DE ACCIONES 


za con un objetivo y créa un plan inicial para alcanzarlo. El agente enfonces comienza 
ejecutando acciones una por una. El agente de replanificaciôn, al contrario que otros agen¬ 
tes planificadores, sigue el rastro tanto del segmento del plan no ejecutado, plan, como 
del plan original y de forma compléta, plan_completo. El agente utiliza vigilancia de 
acciones: antes de continuar con la siguiente accion del plan, el agente examina sus per- 
cepciones para ver si alguna de las precondiciones del plan no se ha satisfecho. Si es asl, 
el agente intentarâ regresar a un plan mediante la replanificaciôn de una secuencia de 
acciones que lo lleven de nuevo a un punto del plan completo. 

La Figura 12.14 proporciona una ilustraciôn esquemâtica del proceso. El replanifi- 
cador notifica que las precondiciones de la primera accion en el plan no se encuentran 
satisfechas en el estado actual. Por tanto, se invoca al planificador para que genere un 
nuevo sub-plan llamado reparaciôn que accédera desde la situaciôn actual hasta algün 
estado s sobre el plan_completo. En este ejemplo, el estado 5 corresponde a una etapa 
anterior del actual plan (esto es as! porque mantenemos la mta del plan completo). En 
general, seleccionamos 5 para que esté lo mas cercano posible al estado actual. La con- 
catenaciôn de la reparaciôn y la porciôn del plan completo de 5 en adelante, a lo que 
llamaremos continuaciôn, généra un nuevo plan, y el agente se encuentra preparado para 
comenzar de nuevo la ejecuciôn. 


Plan completo 

Plan 



Figura 12.14 Antes de la ejecuciôn, el planificador emerge con un plan, llamado plan_comple- 
to, para accéder a G desde S. El agente ejecuta el plan hasta el punto que se marca con E. Antes de 
ejecutar el plan que resta, se chequean las precondiciones y se encuentra que realmente hemos al- 
canzado el estado O y no el estado E. Se invoca al algoritmo de planificacion para, mediante re¬ 
paraciôn, generar un plan que permita pasar del estado O a otro punto P del plan_completo. El nuevo 
plan se généra mediante la concatenaciôn de reparaciôn y continuaciôn (la reanudacion del origi¬ 
nal plan_completo). 


Regresemos al ejemplo del problema de obtener una silla y una mesa del mismo co- 
lor, esta vez via replanificaciôn. Se asume un entorno completamente observable. En el 
estado inicial la silla es azul, la mesa es verde, y se tiene una lata de pintura azul y otra 
de pintura roja. Esto nos lleva a la siguiente definiciôn del problema: 

Iniciar ( Color(Silla , Azul) a Color(Mesa, Verde) 
a ContieneColor(BC, Azul) a LataPintura(BC)) 
a ContieneColor(RC, Rojo) a LataPintura (RC) 
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Objetivo {Color {Silla, x ) a Color{Mesa, x )) 

Action (, Pintar{objeto, color), 

Precond: TenerPintura {color) 

Efecto: Color(objeto, color)) 

Action (Abrir(Lata), 

Precond: LataPintura{Lata) a ContieneColor{lata, color) 

Efecto: TenerPintura {color) 

El Planner del agente debe surgir con el siguiente plan: 

[Iniciar; Abrir{BC); Pintar{Mesa, Azul); Finalizar\ 

Ahora el agente esta preparado para ejecutar el plan. Se asume que todo saldrâ bien cuan- 
do el agente abra el bote de pintura azul y aplique la pintura a la mesa. Los agentes de 
las secciones previas podrfan declararse victoriosos en este momento, al haber comple- 
tado las etapas del plan. Pero un agente con capacidad para la vigilancia de ejecucion 
debe primeramente chequear la precondicion de la etapa Finalizar , que implica comprobar 
que ambas piezas tienen al final el mismo color. Supongamos que el agente perciba que 
no comparten el mismo color, porque falta un pequeno trozo por pintar de la mesa. El 
agente entonces necesita calcular una posiciôn en el plan_completo para apuntalar una 
secuencia de accion que lo repare. El agente conoce que el estado actual es idéntico a la 
precondicion previa a la accion Pintar, de forma que el agente selecciona la secuencia 
vacia como réparation y transforma el plan en la misma secuencia [ Pintar, Finalizar] 
que habfa intentado. Con este nuevo plan en juego, se reanuda la vigilancia de la ejecu¬ 
cion, y la accion Pintar es reintentada. Este comportamiento sera ciclico hasta que la mesa 
se perciba completamente pintada. Pero es importante destacar que el bucle es creado 
por un proceso de planificar-ejecutar-replanificar, mas que por un bucle explicita en un 
plan. 

La vigilancia de acciones es un método muy simple de vigilancia de ejecucion pero 
a veces puede dirigirnos a comportamientos poco inteligentes. Por ejemplo, suponga¬ 
mos que el agente construye un plan para resolver el problema de pintar la silla y la mesa 
de rojo. Al abrir la lata de pintura roja comprueba que en ella solo hay pintura para pin¬ 
tar la silla. La vigilancia de acciones podria no detectar errores hasta que la silla ya ha 
sido pintada, por lo que en ese instante TenerPintura {rojo) se convierte en falso. Lo que 
realmente necesitamos hacer es detectar un error en cualquier instante en que el estado 
vigilancia del plan sea tal que el plan que resta no funcione mas. La vigilancia del plan permite esta, me- 
diante el chequeo de las precondiciones para alcanzar el éxito en el plan que resta, es 
decir, las precondiciones de cada etapa en el plan, exceptuando aquellas que son alcan- 
zadas por alguna otra etapa en el plan que resta por ejecutarse. La vigilancia de planes 
interrumpe tan pronto como es posible la ejecucion de un bucle en un plan y no conti- 
nüa hasta que el error ya haya ocurrido 13 . En algunos casos, esto puede rescatar al agen¬ 
te del desastre cuando el plan ha caido en un bucle y dirige al sistema a un punto muerto 
desde el que el objetivo podria ser inalcanzable. 


13 La vigilancia de planes logra un agente mâs listo que el escarabajo del estiércol (véase Apartado 2.2). Nues- 
tro agente puede darse cuenta de que la bola de estiércol que ocultaba su guarida ya no esta y podria repla- 
nificar para buscar otra nueva. 
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Es relativamente sencillo modificar un algoritmo de planificaciôn para que permita 
al plan, en cada instante, tomar registre de las precondiciones para el éxito del plan que 
resta por ejecutarse. Si extendemos la vigilancia del plan a la evaluacion de si el estado 
actual satisface las precondiciones del plan en cualquier instante del futuro, la vigilan¬ 
cia del plan podrâ también extraer ventaja de la serendipia, esto es, del éxito acciden¬ 
tai. Si alguna cosa sucede y la mesa se pinta de rojo al mismo tiempo que el agente esta 
pintando la silla de rojo, las precondiciones del plan final se satisfacen (el objetivo ha 
sido alcanzado), y el agente puede regresar a casa mas temprano. 

Hasta aqui, hemos descrito la vigilancia y la replanificaciôn en entornos completamente 
observables. Los procesos pueden volverse mucho mas complicados cuando trabajamos 
con entornos parcialmente observables. En primer lugar, las cosas pueden estropearse sin 
que el agente sea capaz de detectarlo. En segundo lugar, «la evaluacion de precondicio¬ 
nes» podrfa exigir la ejecucion de acciones sensoriales, que también tienen que ser plani- 
ficadas (en tiempo de planificaciôn, lo que nos lleva de nuevo a planificaciôn condicional, 
o respuestas en tiempo de ejecucion). En el peor de los casos, la ejecucion de una acciôn 
sensorial podria requérir un plan complejo que exigiese vigilancia y posiblemente mas ac¬ 
ciones sensoriales, etc. Si el agente insiste en chequear cada precondiciôn, podria perma- 
necer inactivo permanentemente y no hacer nada. Es preferible que el agente évalué 
aquellas variables que son importantes, tenga buena suerte, y no emplee mucho tiempo en 
percibir fallos. Esto le permite al agente responder apropiadamente a situaciones de ame- 
naza, pero que no malgaste el tiempo comprobando que «el cielo se desploma». 

Hasta ahora hemos descrito un método de vigilancia y replanificaciôn, pero la pre- 
gunta es «^Funciona?» Esta es una pregunta con tmco. Si se pretende decir «^Se puede 
garantizar que el agente siempre alcanza el objetivo, incluso en sistemas con indeter- 
minaciôn ilimitada?» la respuesta es no, porque el agente podria alcanzar un punto 
muerto, tal como se describiô en la Secciôn 4.5 en el ejemplo de la büsqueda online. Por 
ejemplo, el agente aspiradora podria no conocer que su bateria puede acabarse. Esto des- 
carta puntos muertos; es decir, supongamos que el agente puede construir un plan para 
alcanzar un objetivo desde cualquier estado en el entorno. Si suponemos que el entor- 
no es no-determinista, en el sentido que dado un plan siempre tiene alguna posibilidad 
de éxito para cualquier tentativa de ejecucion dada, entonces el agente eventualmente 
podrâ alcanzar el objetivo. El agente de replanificaciôn, por lo tanto, tiene capacidades 
anâlogas a los agentes de planificaciôn condicional que hemos presentado. De hecho, 
podemos modificar un planificador condicional de modo que disene solo un plan para 
una soluciôn parcial y que incluya etapas de la forma «si <test> entonces plan A y en 
caso contrario replanificar». Bajo las hipôtesis planteadas, un plan de este tipo puede 
ser una soluciôn correcta al problema original; ademâs puede ser mucho mas barato este 
diseno que un plan completamente condicional. 

Hay problemas cuando el agente hace intentas repetidos para alcanzar el objetivo 
y son inütiles (cuando se bloquean por algunas precondiciones o efectos acerca de los 
cuales no se conoce). Por ejemplo, si el agente tiene la clave de la habitaciôn de su 
hôtel equivocada, no es posible abrir la puerta por muchas veces que inserte 14 la tar- 


14 Repeticiones inütiles de plan reparacion exhiben el mismo comportamiento que la avispa sphex (véase 
Apartado 2.2). 
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jeta que abre su puerta. Una soluciôn es seleccionar aleatoriamente uno de los elementos 
del conjunto de los planes de reparacion posibles, preferiblemente al intento sucesi- 
vo del mismo. En este caso, el plan reparacion que consiste en regresar a la recepciôn 
y solicitar una clave correcta de la habitaciôn podria ser una alternativa ütil. Dado que 
el agente puede no ser capaz de distinguir entre el caso realmente no-determinista y 
el caso inütil, es una buena idea aceptar las variaciones en las estretegias de repara¬ 
cion. 

Otra soluciôn para el problema de la descripciôn incorrecta de acciones es el apren- 
dizaje. Después de varios intentos, el aprendizaje en agentes debe ser capaz de modifi- 
car la descripciôn de la acciôn que dice que la llave abre la puerta. En este instante, el 
replanifieador automâticamente surgira con un plan alternativo, como obtener una nue- 
va llave. Esta clase de aprendizaje es descrita en el Capitulo 21. 

Incluso con todas estas mejoras potenciales, el agente de replanificaciôn afin tiene 
limitaciones. No puede comportarse correctamente en entornos a tiempo-real, y no hay 
limite sobre la cantidad de tiempo que emplearâ en replanificar, y por tanto en decidir 
la acciôn. Ademâs, no se pueden formular sus nuevos objetivos anadidos a los que ac- 
tualmente contempla, por lo que no vivirâ mucho en un entorno complejo. Estas limi¬ 
taciones se estudiarân en la secciôn siguiente. 


12.6 Planifïcacion continua 


En esta secciôn, se disenarâ un agente que persiste indefinidamente en un entorno. De 
forma que no tendremos un «resolvedor de problemas» sino que dado un objetivo, se 
ejecutarân planes y acciones hasta que el objetivo sea alcanzado; mejor dicho, el agen¬ 
te vive a través de una sérié de formulaciones de objetivos que continuamente cambian, 
planifïcacion y fases de actuaciôn. Mas que pensar en un monitor planificador y en un 
ejecutor de ôrdenes como procesos separados, uno de los cuales se basa en los datos que 
agente de proporciona el otro, podemos considerarlos como un ünico proceso de un agente de pla- 

PLANIFICACIÔN 

continua niticacion continua. 

Se viene considerando a los agentes como los elementos a través de los que se eje- 
cuta un plan (el gran plan de vivir su vida). Sus actividades incluyen realizar algunas 
etapas del plan que estân preparadas para ser ejecutadas, refinando el plan para satisfa- 
cer precondiciones abiertas o resolver conflictos, y modificando el plan a la luz de in- 
formaciôn adicional obtenida durante la ejecuciôn. Obviamente, cuando se formula un 
nuevo objetivo, el agente no tendra acciones preparadas para ejecutarlas, de forma que 
tardarâ un tiempo en la generaciôn de un plan parcial. Los agentes de planifïcacion con¬ 
tinua vigilan el mundo continuamente, actualizando su modelo del mundo con nuevas 
percepciones aunque se mantengan las deliberaciones sobre objetivos. 

Primeramente introduzeamos un ejemplo, y después describamos el programa del 
agente. Se utilizarân planes de orden-parcial como representaciones y llamaremos al re- 
sultado algoritmo POP-CON. Para simplificar la presentaciôn, se supone un entorno com- 
pletamente observable. Las mismas técnicas pueden ser extendidas para el caso 
parcialmente observable. 
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Figura 12.15 Secuencia de estados del agente de planificaciôn continua que intenta alcanzar el 
estado objetivo Sobre(C, D ) a Sobre(D, B), que se muestra en (d). El estado inicial es (a). En (b), 
otro agente ha interferido en el plan, colocando D sobre B. En (c), el agente ha ejecutado Mover(C, 
D) pero ha fallado, y ha colocado C sobre A. En la ültima fase reintenta Mover(C, D), alcanzando 
el estado objetivo (d). 


El ejemplo que presentaremos es un problema en el dominio del mundo de los blo¬ 
ques (Secciôn 11.1). El estado inicial se muestra en la Figura 12.15(a). La accion que 
necesitaremos es Mover ( x, y), la cual mueve el bloque x sobre el bloque y, en el caso 
que ambos estén libres de obstâculos. El esquema de accion es: 

Acciôn(Mover (x, y), 

Precond: SinObstâculos(x) a SinObstâculos(y) a SobreÇx, z), 

Efecto: Sobre(x, y) a SinObstâculosiz ) a ~<Sobre(x, z) a -> SinObstâcuIos (y)) 

El agente primeramente necesita formular un objetivo por él mismo. No se discutirâ la 
formulaciôn de objetivos en este momento, pero en su lugar asumiremos que de alguna 
forma el agente esta informado para alcanzar el objetivo Sobre(C, D) a Sobre(D, B). El 
agente comienza planificando para lograr este objetivo. Diferente a todo el resto de nues- 
tros agentes, que interrumpen sus percepciones hasta que el planificador obtiene una so- 
luciôn compléta al problema, el agente de planificaciôn continua va construyendo el plan 
de un modo incrémental, y cada incremento toma una limitada porciôn de tiempo. Des- 
pués de cada incremento, el agente propone NoOp como accion y evalüa su percepciôn 
de nuevo. Se supone que las percepciones no cambian y que el agente construye el plan 
râpidamente. Este se présenta en la Figura 12.16. Destacamos que aunque las precon- 
diciones de ambas acciones se satisfacen por Iniciar, existe una restricciôn de orden en¬ 
tre Mover{D, B) antes de Mover{C , D). Esto es necesario para asegurar que SinObstâcuIos 
(D) es correcto hasta que Mover ( D , B) se haya completado. A lo largo del proceso de 


Inicio 


Sobremesa(A) 
Mover(B,E) 
Mover(C,F) 
Mover(D,G) 
SinObstâculos(A) ' 
SinObstâculos(C) * 
SinObstâculos(D) * 
SinObstâculos(B) • 



Figura 12.16 Plan inicial construido por el agente de planificaciôn continua. El plan es indistin- 
guible, hasta este momento, del que produjese un planificador normal de orden parcial. 
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EXTENSION 


FASE REDUNDANTE 


planificaciôn continua, Iniciar siempre usa étiqueta del estado présente. El agente ac- 
tualiza el estado después de cada accion. 

El plan esta ahora preparado para ser ejecutado, pero antes de que el agente pueda 
tomar ninguna accion, la naturaleza interviene. Un agente externo (quizâs el tutor del 
agente se empieza a impacientar) mueve D sobre fi y el mundo se encuentra enfonces 
en el estado mostrado en la Figura 12.15(b). El agente percibe esto, reconoce que 
SinObstâculos(B) y Mover(D, G) no son verdaderas en el estado actual, y actualiza su 
modelo de estado actual de forma correspondiente. Los lazos causales que proporcio- 
naron las precondiciones SinObstâculos{B) y Mover(D, G) para la accion MoveiiD, B) 
se han convertido en no-validas y deben ser eliminadas del plan. El nuevo plan se mues- 
tra en la Figura 12.17. En todo este tiempo, Iniciar représenta el estado actual, de for¬ 
ma que este Iniciar es diferente al mostrado en la figura anterior. Destacamos que el plan 
esta aün incompleto: dos de las precondiciones para Mover(D, B) estân abiertas, y su pre- 
condicion Sobre (D, y) esta no-instanciada, porque no existe ninguna razon para supo- 
ner que ese movimiento nos llevarâ a G. 


Sobremesa(A) 
Mover(B,E) 
Mover(C,F) • 
Mover(D,B) 
SinObstâculos(A) 
SinObstâculos(C) * 
SinObstâculos(D) • 
SinObstâculos(G) 



Mover(D,y) 

^SinObstâculos(D) 

SinObstâculos(B) 


Figura 12.17 Después de que algo moviese D sobre B, los enlaces que proporcionaron SinObs- 
tâculos(B) y Mover(D, G) son eliminados, produciendo este plan. 


Ahora que el agente puede tomar ventaja de la «ayuda» de la interferencia, notifi- 
cando que el enlace causal Mover(D, fi) sobre (i) ' 11 ^Finalizar puede ser reemplazado 
por un enlace directo desde Iniciar hasta Finalizar. Este proceso se conoce como ex¬ 
tension de un enlace causal y puede hacerse siempre que una condiciôn propuesta por 
una etapa anterior o incluso posterior pueda provocar un nuevo conflicto. 

Una vez que el antiguo lazo causal desde Mover{D , fi) hasta Finalizar es elimina- 
do, Mover(D, fi) no proporciona mas enlaces causales de ningün tipo. Se conoce como 
una fase redundante. Todas las fases redundantes, y cualquiera de los enlaces que la 
proporcionan, son eliminados del plan. Esto nos da el plan de la Figura 12.18. 


Sobremesa(A) 


rMover(C,F) 
r SinObstâculos(C) 
r SinObstâculos(D) 



Mover(C,F) 

Mover(C, D) 



SinObstâculos(A) 



SinObstâculos(C) 



SinObstâculos(D) * 
SinObstâculos(G) 


Figura 12.18 El enlace que nos proporciona Mover{D, B) ha sido reemplazado por otro Iniciar, 
y la fase redundante Mover(D, B) ha sido eliminada. 
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Ahora la etapa Mover(C, D ), esta preparada para ser ejecutada, porque todas sus pre- 
condiciones son satisfechas por la fase lniciar, ninguna otra etapa esta necesariamente 
antes, y no existe conflicto con cualquier otra etapa en el plan. Esta fase es eliminada 
del plan. Desafortunadamente, el agente es torpe y coloca C sobre A y no sobre D, pro- 
porcionando el estado mostrado en la Figura 12.15(c). El nuevo estado del plan se mues- 
tra en la Figura 12.19. Destaquemos que aunque no existan acciones en el plan en este 
momento, aün existe una condicion abierta para la etapa Finalizar. 


Sobremesa(A) 

Mover(B,E) 



Mover(C,A) 




SinOb'stâc'ulos(F) 

Mover(u,u) 



SinObstâculos(C) 

SinObstâculos(D) 

SinObstâculos(G) 


Figura 12.19 Después de que Mover(C, D) se ejecute y éliminé del plan, los efectos de la fase 
lniciar reflejan el hecho de que C termine sobre A en lugar de sobre D. La precondicion del obje- 
tivo Sobre(C, D ) permanece abierta. 


El agente décidé planificar a partir de condiciones abiertas. De nuevo, Mover(C, D) 
satisface una condicion objetivo. Sus precondiciones son satisfechas por nuevos enla¬ 
ces causales desde la fase lniciar. El nuevo plan se présenta en la Figura 12.20. 


Inicio 

— Mover(C,A) 

^ 000 00* 000 ^ SinObstâculos(C) 

Sobremesa(A) - ^^^SinObstâculosfD) 

Mover(B,E) 

Mover(C,A) — 1 //— 

SinObstâculos(F) 

SinObstâculos(C) 

SinObstâculos(D) ^ 

SinObstâculos(G) 

Mover(C.D) 

MoverfC, D) 

Final 

Figura 12.20 La condicion abierta se resuelve anadiendo Mover{C, D) de nuevo. Destacamos los 
nuevos lazos entre precondiciones. 


De nuevo Mover(C, D), esta preparado para ejecutarse. Esta vez si funciona, obte- 
niendo como resultado el estado objetivo mostrado en la Figura 12.15(d). Una vez que 
esta etapa ha sido superada en el plan, la condicion objetivo Sobre(C, D) se convierte de 
nuevo en condicion abierta. Aunque la fase lniciar esta actualizada para que représen¬ 
te el nuevo estado del mundo, sin embargo, la condicion objetivo puede ser satisfecha 
inmediatamente por un enlace desde la fase lniciar. Este es el curso de sucesos norma¬ 
les cuando una accion es exitosa. El estado final del plan se muestra en la Figura 12.21. 
Como todas las condiciones objetivo son satisfechas por la fase lniciar y no quedan ac¬ 
ciones pendientes, el agente es ahora libre de eliminar los objetivos de Finalizar y for- 
mular un nuevo objetivo. 

Con este ejemplo, podemos ver que la planificacion continua es bastante similar a la 
planificaciôn de orden-parciai. Para cada iteraciôn, el algoritmo encuentra alguna cosa acer- 
defecto del plan ca del plan que necesita reparacion (un defecto del plan) y lo soluciona. El algoritmo POP 

puede ser visto como un algoritmo extractor-de-defectos, considerando defectos tanto las 
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Sobremesa(A) 

Mover(B,E) 


Inicio 



Final 

SinObstâculos(F) 



SinObstâculos(C) 
SinObstâculos(A) 
SinObstâculos(G) 


Figura 12.21 Después de que Mover(C, D) sea ejecutado y eliminado del plan, la concision abier- 
ta que permanece Sobre(C, D) se resuelve anadiendo un enlace causal desde la nueva etapa Iniciar. 
El plan es definitivamente completado. 


precondiciones abiertas como los conflictos causales. El agente de planificacion conti¬ 
nua, ademâs, puede solucionar un rango mucho mas amplio de defectos: 

• Objetivos perdidos: el agente puede decidir anadir un nuevo objetivo al estado Fi- 
nalizar (en la planificacion continua, podria tener mas sentido cambiar el nombre 
de Finalizar por No-finalizado, y cambiar Iniciar por Actual, pero utilizaremos los 
términos tradicionales). 

• Precondiciôn abierta: anadir un enlace causal a una precondicion abierta, selec- 
cionando una accion nueva o una y a existente (como en POP). 

• Conflictos causales: dado un enlace causal A -4> B, y una accion C con efecto ~<p, 
seleccionar una restriccion de orden o de alguna variable para resolver el conflic- 
to (como en POP). 

• Enlaces sin fundamento : si existe un enlace causal Iniciar-C, A donde p no es ver- 
dadero en Iniciar, enfonces eliminamos el enlace. (Esto évita que ejecutemos ac- 
ciones cuyas precondiciones sean falsas.) 

• Acciones redundantes : si una accion A proporciona enlaces no causales, se élimi¬ 
na la accion y sus enlaces, esto nos permite tener ventaja de la serendipia de los 
eventos en el entorno. 

• Acciones no-ejecutadas : si una accion A (diferente de Finalizar) tiene sus pre¬ 
condiciones satisfechas en Iniciar, no tiene otras acciones (ademâs de Iniciar ) an¬ 
tes que ella, y entra en conflicto con enlaces no causales, entonces se élimina A y 
sus enlaces causales y se restituye cuando la accion vaya a ser ejecutada. 

• Objetivos histôricos innecesarios : si no existen precondiciones abiertas ni accio¬ 
nes en el plan (de forma que todos los enlaces causales van directamente desde Ini¬ 
ciar a Finalizar), entonces hemos alcanzado el conjunto actual de objetivos. 
Eliminar los objetivos y los enlaces entre ellos permite tener en cuenta nuevos ob¬ 
jetivos. 

El Agente-POP-Continuo se muestra en la Figura 12.22. Consta de un ciclo «percibir, 
eliminar defectos, actuar». Mantiene un plan persistente en su base de conocimiento, y 
en cada turno élimina un defecto del plan. Entonces selecciona y ejecuta una accion (aun- 
que frecuentemente la accion sera NoOp) y repite el bucle. Este agente puede manejar 
muchos tipos de problemas que se enumeran en la discusion sobre agentes de replani- 
ficacion del Apartado 12.6. En particular, puede actuar en tiempo real, se aprovecha de 
la serendipia del entorno, puede formular sus propios objetivos y puede gestionar efec- 
tos inesperados que afecten a planes futures. 
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funciôn Agente-POP-Continuo (perception ) devuelve una action 

estâtico: plan , un plan, inicialmente simplemente constituido por Iniciar, Finalizar 

action <— NoOp (el defecto) 

EFECTOs[//H'c/fl/-] = Actualizar(Efectos [Iniciar], perception) 
Eliminar-DefectoIp/a/î) Il posiblemente actualizando action 
devuelve action 


Figura 12.22 El Agente-POP-Continuo, un agente de planificaciôn continua de orden-parcial. 
Después de recibir una percepciôn, el agente élimina un defecto de su, continuamente actualizado, 
plan y propone una acciôn. Normalmente esto llevarâ muchas fases de planificaciôn eliminando- 
defectos, durante las cuales se devuelva NoOp, antes de que esté preparado para ejecutar una ac¬ 
ciôn real. 


12.7 Planificaciôn multiagente 


Hasta el momento hemos trabajado con entornos de agente-unico, en los que nuestro 
sistema se encuentra solo. Cuando existen otros agentes en el entorno, nuestro agente 
podna simplemente incluirlos en su modelo del contexto, sin cambiar fundamentalmente 
sus algoritmos bâsicos. En muchos casos, esto podria llevarnos a un comportamiento 
inadecuado porque tratar con otros agentes no es lo mismo que tratar con la naturaleza. 
En particular, la naturaleza es (se supone) indiferente a las intenciones de los agentes 15 , 
mientras que otros agentes no lo serân. Esta secciôn introduce la planificaciôn multia¬ 
gente para trabajar con estos temas. 

Hemos visto en el Capitulo 2 que el entorno multiagente puede ser cooperativo o com- 
petitivo. Comenzaremos con un ejemplo cooperativo simple: planificaciôn de equipos de 
dobles en el tenis. Los planes pueden ser construidos de modo que se especifiquen ac- 
ciones para ambos jugadores del equipo; describiremos técnicas para el diseno de planes 
eficientemente. La construcciôn de planes eficientes es ütil, pero no garantiza el éxito; 
los agentes tienen que estar de acuerdo en utilizar el mismo plan. Esto requiere alguna 
forma de coordinaciôn, posiblemente alcanzada a través de la comunicaciôn. 


Cooperaciôn: planes y objetivos conjuntos 


PLANIFICACIÔN 

MULTIAGENTE 


Dos agentes jugando en equipos de dobles en el tenis tienen el objetivo conjunto de ga- 
nar el partido, lo que se convierte en varios sub-objetivos. Supongamos que en un ins¬ 
tante concreto del juego, se tiene el objetivo conjunto de devolver la bola que ha sido 
golpeada por el otro equipo y se quiere asegurar que al menos uno de los dos jugadores 
esté cubriendo la red. Podemos representar esta nociôn como un problemas de planifi- 
caciôn multiagente, como se ha mostrado en la Figura 12.23. 


15 Los residentes de Reino Unido, donde el mero acto de organizar un picnic significa que lloverâ, pueden 
estar en desacuerdo. 
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PLAN CONJUNTO 


COORDINACIÔN 


Agentes (A, B) 

Iniciar(En (A, [Izquierda, LîneaFondo ]) a En {B , [Derecha, Red]) a 

Acercândose (Bola, [Derecha, LîneaFondo])) Companero (A, B) a Companero (B, A) 
Ohjetivo (Devolver {Bola) a En{agente, [x, Red])) 

Acciôn {Golpear{agente, Bola), 

Precond: Acercândose {Bola, [x, y]) a En{agente, [x, y]) a 
Companero {agente, companero) a -i En(companero, [x, y]) 

Efecto: Devuelta{Bola )) 

Acciôn {Ir{agente, [x, y]), 

Precond: En{agente, [a, h]), 

Efecto: En{agente, [x, y]) a ->En{agente, [a, h])) 


Figura 12.23 El problema del partido de tenis de dobles. Dos agentes estân jugando juntos y pue- 
den estar en una de las siguientes cuatro situaciones: [Izquierda, LîneaFondo ], [Derecha, Lînea¬ 
Fondo], [Izquierda, Red] y [Derecha, Red], La bola solo puede ser devuelta si existe un jugador en 
el lugar correcto. 


Esta notaciôn incluye dos nuevos elementos. En primer lugar, la sentencia Agentes(A, 
B) nos dice que existen dos agentes, A y B, que participarân en el plan. (Para este pro¬ 
blema los jugadores contrarios no son considerados agentes.) En segundo lugar, cada 
acciôn menciona explicitamente al agente como un parâmetro, porque necesitamos 
mantener la pista de qué agente hace qué cosa. 

Una soluciôn al problema de planificaciôn multiagente es un plan conjunto que con¬ 
siste en acciones para cada uno de los agentes. Un plan conjunto es una soluciôn si el 
objetivo es alcanzado cuando cada agente ejecute las acciones que se le han asignado. 
El siguiente plan es una soluciôn para el problema del tenis: 

Plan 1: 

A: [Ir(A, [Derecha, LîneaFondo]),Golpear(A, Bola)] 

B: [NoOp(B), NoOp(B)] 

Si ambos agentes tienen la misma base de conocimiento, y si ésta es la ünica soluciôn, 
entonces puede ser correcto; los agentes podrian buscar cada uno la soluciôn y ejecutarla 
conjuntamente. Desafortunadamente para los agentes (y pronto veremos por qué es des- 
afortunado), existe otro plan que satisface el objetivo tan adecuadamente como el anterior: 

Plan 2: 

A\ [Ir(A, [Izquierda, Red]),NoOpÇA)] 

B: [Ir(B, [Derecha, LîneaFondo]),Golpear{B, Bola)] 

Si A selecciona el plan 2 y B selecciona el plan 1, entonces ninguno devolverâ la bola. 
Y al contrario, si A selecciona el plan 1 y B selecciona el plan 2, posiblemente colisio- 
narân uno contra otro; ninguno devuelve la bola y la red puede quedar desprotegida. No 
debe extraerse de aqui que la existencia de planes conjuntos no signifique que el obje¬ 
tivo sea alcanzado. Los agentes necesitan un mecanismo de coordinaciôn para alcan- 
zar el mismo plan conjunto; y por tanto, deben tener conocimiento comün ( véase Capitulo 
10 ) para que un plan conjunto en particular pueda ser ejecutado. 
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PLANIFICACIÔN 

MULTICUERPO 


SINCRONIZACIÔN 


ACCIÔN CONJUNTA 


LISTA DE ACCIONES 
CONCURRENTES 


Planificaciôn condicional en entornos parcialmente 
observables 

Esta seccion se concentra en la construcciôn de planes conjuntos correctos, aplazando 
la coordinaciôn para mas tarde. Llamamos a esto planificaciôn multicuerpo; éste es esen- 
cialmente un problema de planificaciôn afrontado por un agente centralizado y ünico que 
puede dictar acciones a varias entidades fisicas. En el caso multiagente real, esto capa- 
cita a cada agente a tener en cuenta qué posibles planes conjuntos podrian tener éxito si 
se ejecutan conjuntamente. 

Nuestro estudio de la planificaciôn multicuerpo esta basado en la planificaciôn de 
orden-parcial, tal como se describiô en la Seccion 11.3. Supondremos observabilidad 
compléta, para estudiar un caso mas sencillo. Existe un elemento nuevo que no apare- 
ce en el caso de agente ünico: el entorno no es realmente estâtico, porque otros agentes 
podrian actuar mientras un agente en particular se encuentra deliberando. Por tanto, se 
debe tener en cuenta la sincronizaciôn. Para simplificar, supondremos que cada acciôn 
emplea la misma cantidad de tiempo y que las acciones en cada instante del plan con- 
junto son simultâneas. 

Para todo instante de tiempo, cada agente esta ejecutando ünicamente una acciôn (qui- 
zâs incluyendo NoOp). Este conjunto de acciones concurrentes se conoce como acciôn 
conjunta. Por ejemplo, un acciôn conjunta en el problema del tenis (Apartado 12.7) con 
dos agentes A y B es (NoOp(A), Golpear{B, Bola)). Un plan conjunto consiste en un gra- 
fo de acciones conjuntas parcialmente ordenado. Por ejemplo, el Plan 2 para el proble¬ 
ma del tenis puede ser representado como la siguiente secuencia de acciones conjuntas: 

(Ir(A, [Izquierda, Red]), Ir(B, [Derecha, LmeaFondo])) 

( NoOp(A), Golpear{B, Bola)) 

Se puede planificar utilizando el algoritmo POP, aplicado a un conjunto de posibles ac¬ 
ciones conjuntas. El ünico problema es el tamano de este conjunto: con 10 acciones y 
cinco agentes tendremos 10 5 acciones conjuntas. Puede ser tedioso especificar las pre- 
condiciones y los efectos de cada acciôn, e ineficiente si queremos planificar con un con¬ 
junto tan grande. 

Una alternativa consiste en définir acciones conjuntas implicitamente, describiendo 
como cada acciôn individual interactüa con otras posibles acciones. Esto sera mas sim¬ 
ple, porque muchas acciones son independientes de otras; necesitaremos tener enume- 
radas las pocas acciones que realmente interactüan. Esto puede hacerse incrementando 
las descripciones Strips o ADL usuales con un nuevo elemento: una lista de acciones 
concurrentes. Esta es similar a las precondiciones de la descripciôn de una acciôn ex¬ 
cepta porque en lugar de describirse en términos de variables de estado, se describen las 
acciones que deben o no deben ser ejecutadas concurrentemente. Por ejemplo, la acciôn 
Golpear puede ser descrita como sigue: 

Acciôn ( Golpear{A, Bola), 

Concurrente: -> Golpear(B, Bola) 

Precond: Acercândose {Bola, \x, y]) a En(A, [x, y]) 

Efecto: Devuelta(Bola)) 






PLANIFICACIÔN Y ACCIÔN EN EL MUNDO REAL 515 


CONVENCIÔN 
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Aqui se tiene una limitaciôn de concurrencia-prohibida y exige que durante la ejecuciôn 
de la accion Golpear, no pueda existir otra accion Golpear por otro de los agentes. Se 
pueden requérir acciones concurrentes, por ejemplo para que ambos agentes lleven una 
nevera de bebidas frfas al banquillo. La descripciôn para esta accion nos asegura que el 
agente A no puede ejecutar la accion Llevar a no ser que exista otro agente B que esté 
simultâneamente ejecutando Llevar y aplicado al mismo refrigerador: 

Accion (Lievar(A, frigorîfico, aqui, allî), 

Concurrente: Llevar(B , frigorîfico, aqui, allî) 

Precond: En(A, aqui) a Enifrigorifico, aqui) a Frigorîfico (frigorîfico) 
Efecto: En(A, alli) a Enifrigorifico, aqui) a ~*En(A, aqui) 
a -i Enifrigorifico, aqui) 

Con esta representacion, es posible crear un planificador que sea muy parecido al pla- 
nificador de orden parcial POP. Tenemos très diferencias: 

1. Ademâs de la relaciôn de orden temporal A < B, permitiremos A = B y A < B, 
que significan respectivamente «concurrente» y «antes de la concurrencia». 

2. Cuando una nueva accion ha requerido acciones concurrentes, se deben instan- 
ciar aquellas acciones, utilizando acciones nuevas o existentes en el plan. 

3. La prohibiciôn de acciones concurrentes es una fuente adicional de limitaciones. 
Cada restriccion debe ser resuelta mediante la limitaciôn de acciones que antes 
o después entren en conflicto. 

Esta representacion nos da un algoritmo équivalente a POP para dominios multicuerpo. 
Podriamos extender este enfoque con los refinamientos de los dos ültimos capitulos 
(RJTs, observabilidad parcial, condicionales, vigilancia de ejecuciôn y replanifieaciôn) 
pero esto va mas alla del objetivo de este libro. 

Mecanismos de coordinaciôn 

El método mas simple por el cual un grupo de agentes puede asegurar un acuerdo sobre 
un plan conjunto es adoptar una convenciôn previa a la articulaciôn de la actividad con- 
junta. Una convenciôn es una restriccion sobre la selecciôn de planes conjuntos, mas alla 
de las restricciones bâsicas que el plan conjunto debe establecer si todos los agentes lo 
aceptan. Por ejemplo, la convenciôn «golpea desde el lado del juez de silla» podria for- 
zar a que los agentes seleccionasen el Plan 2, mientras que la convenciôn «un jugador 
siempre se debe encontrar en la red», nos lleva a la elecciôn del Plan 1. Algunas con- 
venciones, taies como conducir por el lado correcto de la via, son tan ampliamente acep- 
tadas que se consideran leyes sociales. Los idiomas de diferentes comunidades humanas 
pueden también ser vistos como convenciones. 

Las convenciones, tal como las hemos descrito en el pârrafo anterior, son especificas 
de un dominio y pueden ser implementadas mediante la restriccion de descripciones de 
acciones que eviten violaciones de la misma convenciôn. Un enfoque mas general con¬ 
siste en usar convenciones independientes-de-dominio. Por ejemplo, si cada agente eje- 
cuta el mismo algoritmo de planificaciôn multicuerpo con los mismos inputs, se puede 
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AGENTE PÂJARO 


COMPORTAMIENTO 

EMERGENTE 


RECONOCIMIENTO 
DE PLANES 


seguir la convencion de ejecutar el primero de los planes conjuntos que sea viable, con- 
fiando en que el resto de los agentes lleguen a la misma elecciôn. Una estrategia mas ro- 
busta pero mas costosa podria ser la de generar todos los planes conjuntos y posteriormente 
seleccionar aquel cuya representaciôn impresa es la primera alfabéticamente. 

Las convenciones pueden también surgir de procesos evolutivos. Por ejemplo, las co- 
lonias de insectos sociales ejecutan planes conjuntos muy elaborados, los cuales estân 
facilitados por la estructura genética comün de los individuos de la colonia. La confor- 
midad puede también ser forzada a través del hecho de que la desviaciôn de las con¬ 
venciones reduce el éxito evolutivo, de forma que cualquier plan conjunto viable puede 
llegar a ser un equilibrio estable. Consideraciones similares se aplican al desarrollo del 
lenguaje humano, donde la clave no esta en qué lenguaje debe hablar un individuo, sino 
que todos los individuos de una comunidad hablen el mismo lenguaje. Un ejemplo fi¬ 
nal aparece en el comportamiento grupal que presentan los pâjaros. Se puede obtener 
una simulaciôn razonable si cada agente pâjaro ejecuta las siguientes très réglas com- 
binadas entre si: 

1. Separaciôn: alejarse de sus vecinos cuando comienza a acercarse. 

2. Cohésion: moverse hacia la posiciôn promedio entre sus vecinos. 

3. Alineamiento: moverse en el sentido de la orientaciôn de sus vecinos. 

Si todos los pâjaros ejecutan la misma politica, el grupo exhibe el comportamiento 
emergente en el vuelo que simula un cuerpo pseudo-rigido con densidad aproximada- 
mente constante y que no se dispersa en el tiempo. Al igual que con los insectos, no 
hay necesidad de que cada agente posea el plan conjunto que modela las acciones de 
otros agentes. 

Tipicamente, las convenciones son adoptadas para dar cobertura a un universo de pro- 
blemas de planificaciôn multiagente, mas que desarrollar convenciones nuevas para 
cada problema. Esto puede llevamos a poca flexibilidad y fracasos, similar a algunas si- 
tuaciones en el problema del tenis como que la bola llegue aproximadamente équidis¬ 
tante entre ambos companeros. En ausencia de una convencion aplicable, los agentes 
pueden utilizar comunicaciôn para alcanzar conocimiento comün sobre un plan conjunto 
y viable. Por ejemplo, en el problema del partido de dobles, un jugador puede gritar 
«jMia!» o «jTuya!» para indicar un plan conjunto. Veremos con mas detalle mecanis- 
mos de comunicaciôn en el Capitulo 22, donde se observarâ que la comunicaciôn no ne- 
cesariamente lleva asociado un intercambio verbal. Por ejemplo, un jugador puede 
comunicarle a otro un plan conjunto preferible para él, mediante la ejecuciôn de la pri¬ 
mera parte del plan. En nuestro problema del tenis, si el agente A sube a la red, el agen¬ 
te B esta obligado a regresar a la linea de fondo, porque el Plan 2 es el ünico plan conjunto 
que se inicia con el agente A subiendo a la red. Este modo de coordinaciôn, a veces 11a- 
mado reconocimiento de planes, funciona cuando una acciôn ünica (o una pequena se- 
cuencia de acciones) es suficiente para determinar un plan conjunto sin ambigüedad. 

El coste de asegurarse que el agente alcanza un correcto plan conjunto puede ser car- 
gado sobre los disenadores de los agentes o sobre los mismo agentes. En el primer caso, 
antes de que los agentes comiencen un plan, el disenador del agente debe probar que las 
polfticas y las estrategias sean utiles. Los agentes en este caso pueden ser reactivos en 
su entorno, ya que no necesitan tener modelos explicitas acerca de otros agentes. En el 
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segundo caso, los agentes son deliberativos; ellos deben proporcionar o, en su defecto, 
demostrar que sus planes son eficaces, tomando en consideracion el razonamiento de otros 
agentes. Por ejemplo, en un entorno con dos agentes logicos A y B, ambos podn'an te- 
ner las siguientes definiciones: 

V p, s Accesible (p, s) <=> ConocimientoComûn ({A, B), Alcanza (p, s, Objetivo )) 

Esto nos dice que en cualquier situacion s, el plan p es un plan conjunto accesible si exis¬ 
te el conocimiento comün entre los agentes de que p alcanzarâ el objetivo. Necesitamos 
intencion conjunta mas axiomas para establecer el conocimiento comün de una intenciôn conjunta que eje- 
cute un plan conjunto particular, solo enfonces pueden los agentes comenzar a actuar. 

Mecanismos de coordinaciôn 

No todos los entomos multiagente implican la existencia de agentes cooperativos. Los 
confucto agentes con funciones de utilidad incompatibles entran en conflicto con el resto. Un ejem¬ 

plo son los juegos de suma-cero entre dos jugadores, como el ajedrez. Vimos en el Ca¬ 
pitulo 6 que un agente-jugador-de-ajedrez necesita considerar los posibles movimientos 
del oponente antes de actuar. Por tanto, un agente en un entorno competitivo debe (a) 
reconocer que existen otros agentes, (b) calcular algunos planes posibles del resto de agen¬ 
tes, (c) calcular como los planes de otros agentes interactüan con sus propios planes, y 
(d) decidir sobre la mejor accion en vista de estas interacciones. Por tanto, la competi¬ 
cion, como la cooperacion, requieren un modelo de los planes del otro agente. En el caso 
de la competicion, no existe compromiso para elegir un plan conjunto. 

La Seccion 12.4 dibujo la analogia entre juegos y problemas de planificacion con- 
dicional. El algoritmo de planificacion condicional de la Figura 12.12 disena planes que 
funcionan bajo la hipotesis del peor entorno posible, de modo que puede ser aplicado 
en situaciones competitivas donde el agente solo se mueve por éxito y fracaso. Cuando 
al agente y a sus oponentes les preocupa el coste de un plan, enfonces el minimax es apro- 
piado. Existen trabajos sobre la combinacion del minimax con métodos taies como la 
planificacion POP o RJT, que van mas alla del modelo de büsqueda en el espacio de es- 
tados utilizado en el Capitulo 6. Volveremos al tema de la competicion en la Seccion 17.6 
donde se estudia la teoria de juegos. 


12.8 Resumen 


En este capitulo nos hemos referido a algunas de las complicaciones de la planificacion 
y la actuacion en el mundo real. Los puntos principales son los siguientes: 

• Muchas acciones consumen recursos, como dinero, gas o materias primas. Es con- 
veniente trabajar con estos recursos en términos de medidas numéricas mas que 
intentar razonar acerca de cada moneda individual. Las acciones pueden generar 
y consumir recursos, y es normalmente poco costoso y eficaz evaluar planes par- 
ciales para que se satisfaga la limitacion de recursos antes que intentar refinamientos 
mayores. 
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• El tiempo es uno de los recursos mas importantes. Puede ser gestionado por al- 
goritmos de programaciôn especializados, o pueden integrarse môdulos de pro¬ 
gramaciôn de tareas en la planificacion. 

• La planificacion basada en redes jerârquicas de tareas (RJTs) permite al agen¬ 
te tener sugerencias sobre el dominio por parte del disenador en la forma de ré¬ 
glas de descomposicion. Esto hace viable crear planes extensos que son requeridos 
por muchas aplicaciones en el mundo real. 

• Los algoritmos de planificacion estândar asumen informacion compléta, correcta 
y determinista, en entornos completamente observables. Muchos dominios violan 
esta hipôtesis. 

• La informacion incompleta puede ser manejada mediante planificacion que utili- 
ce acciones sensoriales para obtener la informacion que necesita. Los planes con- 
dicionales permiten al agente ser sensible al mundo durante la ejecuciôn para 
decidir qué rama del plan seguir. En algunos casos, la planificacion sin sensores 
puede ser usada para disenar planes que funcionen sin la necesidad de percepciôn. 
Tanto la planificacion sin sensores como la condicional pueden disenar planes me¬ 
diante büsquedas en el espacio de los estados de creencia. 

• La informacion incorrecta surge de precondiciones insatisfechas para planes y ac¬ 
ciones. La vigilancia de ejecuciôn détecta violaciones de las precondiciones que 
pongan en peligro el éxito del plan compléta. 

• Un agente de replanificaciôn utiliza vigilancia de ejecuciôn, y corta y repara cuan- 
do es necesario. 

• Un agente de planificacion continua créa nuevos objetivos en el transcurso de 
su ejecuciôn y reacciones en tiempo real. 

• La planificacion multiagente es necesaria cuando existen otros agentes en el en- 
torno con los que cooperar, competir o coordinarse. La planificacion multicuer- 
po construye planes conjuntos, usando una descomposicion eficiente para las 
descripciones de acciones conjuntas, ademâs de alguna forma de coordinaciôn si 
dos agentes cooperativos estân de acuerdo sobre qué plan conjunto ejecutar. 



Notas bibliogrâficas e histôricas 

La planificacion en tiempo continuo fue por primera vez tratada por Deviser (Vere, 1983). 
El enfoque de una representaciôn sistemâtica del tiempo en los planes fue planteada por 
Dean et al. (1990) en el sistema Lorbin. Nonlin+ (Tate y Whiter, 1984) y Sipe (Wil¬ 
kins, 1988, 1990) pudo razonar acerca de la distribuciôn de recursos limitados para varias 
fases del problema. O-Plan (Bell y Tate, 1985), un planificador RJT, ténia una repre¬ 
sentaciôn uniforme para las limitaciones de tiempo y recursos. Ademâs de la aplicaciôn 
ya mencionada de Hitachi en el capitulo, O-Plan ha sido aplicado a la planificacion de 
diseno de software en Price Waterhouse y la planificacion del ensamblaje de ejes trase- 
ros en los coches de la marca Jaguar. Un gran numéro de sistemas de planification-y- 
programaciôn hibridos han sido destacados: Isis (Lox et al., 1982; Lox, 1990) ha sido 
usado para la programaciôn de tareas en Westinghouse, Gari (Descotte y Latombe, 1985) 
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planificô el diseno y el ajuste de partes mecânicas, Forbin se utilizo para control in¬ 
dustrial, y Nonlin+ se uso en planificaciôn logistica naval. 

Después de un inicial agotamiento de la investigacion teôrica en la década de los 80, 
la planificaciôn temporal hizo su apariciôn cuando nuevos algoritmos y mayor poder de 
procesado hicieron posibles atacar aplicaciones prâcticas. Los dos planificadores Sapa 
(Do y Kambhampati, 2001) y T4 (Haslum y Geffner, 2001) utilizaron büsquedas hacia- 
delante en el espacio de estados con sofisticadas heuristicas para trabajar con acciones 
y recursos. Una alternativa consiste en el uso de lenguajes expresivos, pero guiados por 
heuristicas en humanos y en dominios especificos, como se hizo en Aspen (Fukunaga 
et al, 1997), HSTS (Jonson et al, 2000) e IxTeT (Ghallab y Lamelle, 1994). 

Hay una larga tradiciôn en programacion de tareas en el sector aeroespacial. T- 
Sched (Drabble, 1990) se utilizo para programar los comandos de la misiôn del satéli- 
te Uosat-II. Optimum-AIV (Aarup et al, 1994) y Plan-ERS 1 (Fuchs et al, 1990), ambos 
basados en O-Plan, fueron usados para el ensamblaje de un vehiculo espacial y la pla- 
nificaciôn, respectivamente, en la Agencia Espacial Europea. Spike (Johnston y Adorf, 
1992) se utilizo por la NASA en la planificaciôn del Telescopio Espacial Hubble, mien- 
tras que el Sistema de Programacion de Procesado de Lanzadera Espacial (Deale et al, 
1994) realizaba la programacion de tareas de mas de 16.000 trabajadores. El Agente Re¬ 
moto (Muscettola et al, 1998) se convirtiô en el primer planificador autônomo para con- 
trolar una aeronave que volô sobre la sonda Deep Space One en 1999. La literatura sobre 
programacion de tareas en investigacion operativa fue supervisada por Vaessens et al 
(1996); trabajos teôricos fueron presentados por Martin y Shmoys (1996). 

La facilidad en programacion Strips para el aprendizaje macrops («macro-opera- 
dores» que consisten en una secuencia de etapas primitivas) podrfa ser considerada el 
primer mecanismo para planificaciôn jerârquica (Fikes étal., 1972). La jerarquia fue tam- 
bién utilizada en el sistema Lawaly (Siklossy y Dreussi, 1973). El sistema Abstrips (Sa- 
cerdoti, 1974) introdujo la idea de jerarquia abstracta, por medio de la cual la 
planificaciôn en niveles elevados era posible ignorando las precondiciones de acciones 
de niveles inferiores con el fin de obtener la estructura general del plan de trabajo. La 
tesis doctoral de Austin Tate (1975b) y el trabajo de Earl Sacerdoti (1977) fundamenta- 
ron las ideas bâsicas de la planificaciôn RJT en su forma modema. Varios planificado¬ 
res prâcticos, incluyendo O-Plan y Sipe, son planificadores RJT. Yang (1990) discutiô 
las propiedades de acciôn que hacian a los RJT eficientes. Erol, Hendler y Nau (1994, 
1996) presentaron un planificador de descomposiciôn jerârquica compléta en un rango 
de complejidad mayor que los planificadores RJT puros. Otros autores (Ambros-Inger- 
son y Steel, 1988; Young et al, 1994; Barrett y Weld, 1994; Kambhampti et al, 1998) 
han propuesto un enfoque hibrido presentado en este capitulo, en el cual las descompo- 
siciones son simplemente otra forma de refinamiento que puede ser usado en planifica- 
ciôn de orden-parcial. 

Empezando con el trabajo con macro-operadores en Strips, uno de los objetivos de 
la planificaciôn jerârquica fue la reutilizaciôn de experiencias de planificaciôn previas 
en la forma de planes generalizados. La técnica de aprendizaje basado en la explica- 
ciôn, descrita en profundidad en el Capitulo 19, ha sido aplicado en varios sistemas como 
una forma de generalizaciôn de planes previamente computados, incluyendo Soar (Laird 
et al, 1986) y Prodigy (Carbonell et al, 1989). Un enfoque altemativo es el almace- 
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naje de planes previamente computados en su forma original y posteriormente reutili- 
zados para resolver nuevos problemas similares por analogfa con el problema original. 
Este es el enfoque tomado por un area llamada planificaciôn basada en casos (Carbo- 
nell, 1983; Alterman, 1988; Hammond, 1989). Kambhampati (1994) argumenta que la 
planificaciôn basada en casos deberfa ser analizada como una forma de refinamiento en 
la planificaciôn y propone un fundamento formai para la planificaciôn basada en casos 
de orden parcial. 

La imprevisibilidad y observabilidad parcial de entornos reales fue expuesta en pro- 
yectos de robôtica que usaban técnicas de planificaciôn, incluyendo Shakey (Fikes et al., 
1972) y Freddy (Michie, 1974). El problema recibiô mas atenciôn después de la publi- 
caciôn del importante articulo de McDermott (1978a), Planning y Acting. 

Los primeras planificadores, sin condicionales ni bucles, no pudieron reconocer ex- 
plicitamente el concepto de planificaciôn condicional; pero a pesar de todo emplearon 
un estilo coercitivo en respuesta a la incertidumbre del entorno. El sistema Noah de Sa- 
cerdoti usaba la coerciôn en su soluciôn al problema «llaves y cajas», un problema de 
planificaciôn en el que el planificador conocia muy poco acerca del estado inicial. Ma- 
son (1993) argumentaba que la percepciôn sensorial frecuentemente podia y debia ser 
distribuida con un robot planificador, y describiô un plan sin sensores que podia mover 
un elemento en una posiciôn especifica sobre una mesa mediante una secuencia de ac- 
ciones de inclinaciôn, independientemente de su posiciôn original. Se describirâ esta idea 
en el contexto de la robôtica (véase Figura 25.17). 

Goldman y Boddy (1996) introdujeron el término planificaciôn conforme para pla¬ 
nificadores sin sensores que tratasen la incertidumbre forzando que el mundo alcanza- 
se estados conocidos, destacando que los planes sin sensores son efectivos incluso 
aunque el agente posea sensores. El primer planificador moderadamente eficiente fue el 
Conformant Graphplan (CGP) de Smith y Weld (1988). Ferraris y Giunchiglia (2000) 
y Rintanen (1999) desarrollaron de manera independiente planificadores conformes ba- 
sados en SATplan. Bonet y Geffner (2000) describieron un planificador conforme ba- 
sado en büsquedas heuristicas en el espacio de los estados de creencia, trabajando con 
ideas desarrolladas por primera vez en 1960 en los procesos de decision de Markov par- 
cialmente observables, o PDMPOs (véase Capitulo 17). Actualmente, los planificado¬ 
res conformes de estado de creencias mas eficaces, como HSCP (Bertoli et al., 2001a), 
usan diagramas de decision binarios (BDDs) (Bryant, 1992) para representar estados de 
creencias y son del orden de cinco ôrdenes de magnitud mas râpidos que el CGP. 

Warplan-C (Warren, 1976), una variante de Warplan, fue uno de los primeros pla¬ 
nificadores en usar acciones condicionales. Olawski y Gini (1990) disenaron los mejo- 
res sistemas de planificaciôn condicional. 

El enfoque de la planificaciôn condicional descrito en el capitulo esta basado en los 
algoritmos de büsqueda para grafos AND-OR desarrollados por Jiménez y Torras (2000) 
y por Hansen y Zilberstein (2001). Bertoli et al., (2001b) describieron un planteamien- 
to basado en BDD que construia planes condicionales con bucles. C-Buridan (Draper 
et al., 1994) trata la planificaciôn condicional para acciones con resultados probabilis- 
ticos, un problema también enfocado por los sistemas POMDPs (Capitulo 17). 

Existe una relaciôn prôxima entre la planificaciôn condicional y la sintesis de pro- 
gramas automâticos; sus referencias aparecen en el Capitulo 9. Ambas areas han sido 
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estudiadas de manera distinta, por razon de la enorme diferencia de coste entre la eje¬ 
cuciôn de instrucciones mâquina y la ejecuciôn de acciones por vehiculos robots o ma- 
nipuladores. Linden (1991) propuso el cruce de ideas fértiles entre ambos campos. 

Retrospectivamente, es ahora posible observar cômo los mejores algoritmos de 
planificacion clâsica se han ido dirigiendo hacia versiones extendidas para dominios 
que contemplaban la incertidumbre. Las técnicas basadas en büsquedas se transformaron 
en las büsquedas en el espacio de creencias (Bonet y Geffner, 2000); SATplan se diri- 
giô hacia una version estocâstica de SATplan (Majercik y Littman, 1999) y hacia pla¬ 
nificacion utilizando lôgica booleana cuantificada (Rintanen, 1999); la planificacion de 
orden parcial se dirigiô hacia UWL (Etzioni et al., 1992), CNLP (Peot y Smith, 1992), 
y Cassandra (Pryor y Collins, 1996). Graphplan se orienté hacia Sensory Graphplan 
o SGP (Weld et al., 1998), aunque un Graphplan probabilistico ya habia sido desa- 
rrollado. 

El primero de los mejores sistemas de vigilancia de ejecuciôn fue Planex (Fikes et 
al., 1972), que funcionaba con el planificador Strips para controlar el robot Shakey. Pla¬ 
nex utilizô tabulaciôn triangular (esencialmente un modo de almacenaje eficiente para 
las precondiciones de los planes y para cada instante de tiempo) que permitiese el rees- 
tablecimiento del plan, interrumpido por errores parciales de ejecuciôn, sin replanifica- 
ciôn compléta. El modelo de ejecuciôn de Shakey es discutido en el Capitulo 25. El 
planificador Nasl (McDermott, 1978a) trataba problemas de planificacion simplemen- 
te como una especificaciôn para realizar una acciôn compleja, de modo que la ejecuciôn 
y planificacion estuviesen completamente unificadas. Se utilizaba demostraciôn auto- 
mâtica de teoremas para razonar acerca de estas complejas acciones. 

Sipe {System for Interactive Planning and Execution monitoring ) (Wilkins, 1988, 
1990) fue el primer planificador en trabajar sistemâticamente con el problema de la re- 
planificaciôn. Se utilizô en proyectos de demostraciôn de diferentes dominios, incluyendo 
operaciones de planificacion de la plataforma aérea de un sistema de comunicaciôn de 
aeronaves y en la programaciôn de tareas para la industria cervecera australiana. Otro 
estudio en el que se utilizô Strips consistiô en un plan para la construcciôn de edificios 
de varias plantas, uno de los dominios mas complejos que se han abordado con un pla¬ 
nificador. 

Ipem (Integrated Planning, Execution and Monitoring ) (Ambros-Ingerson y Steel, 
1988) fue el primer sistema en integrar planificacion de orden parcial y ejecuciôn para 
obtener un agente de planificacion continua. El Agente-POP-Continuo que hemos in- 
troducido combina ideas de Ipem, de Puccini (Golden, 1998), y el sistema Cypress (Wil¬ 
kins et al., 1995). 

A mediados de la década de los 80, se pensaba que mediante planificacion de orden 
parcial o técnicas similares no se podria nunca generar un comportamiento de respuesta 
de agente suficientemente râpido para sobrevivir en el mundo real (Agre y Chapman, 
1987). Por esta razon, los sistemas de planificacion reactiva fueron propuestos; en su 
forma bâsica, éstos eran agente reflejos, con posibilidad de poseer un estado intemo, que 
podia ser implementado con muchas de las diferentes representaciones de réglas condi- 
ciôn-acciôn. La arquitectura de subsunciôn de Brooks (1986), que se estudia con mas de- 
talle en los Capitulos 7 y 25, utilizaba mâquinas de estado-finito con varias capas, en robots 
con patas y ruedas, para controlar su movimiento y para que evitasen obstâculos. Pengi 
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(Agre y Chapman, 1987) fue capaz de desenvolverse eficazmente en un (completamen- 
te observable) vldeo-juego utilizando ünicamente circuitos booleanos combinados con una 
représentation «visual» de los objetivos actuales y el estado intemo del agente. 

Los «planes universales» (Schoppers, 1987) fueron desarrollados via planificaciôn 
reactiva como un mecanismo que mira-por-encima-datos tabulados, pero que redescu- 
principios bre y aplica la idea de principios que se hablan introducido en los procesos de decision 

de Markov. Un plan universal (o principio) consiste en una correspondencia entre cual- 
quier estado y la action que deberia ser tomada en ese estado. Ginsberg (1989) recha- 
zo efusivamente la estrategia de planes universales, porque algunas de las formulaciones 
de los problemas de planificaciôn reactiva inclulan resultados de intratabilidad. Schop¬ 
pers (1989), por su parte, ofreciô una vivaz réplica. 

Como es frecuente, un enfoque hibrido surgiô para deshacer la controversia. Utili¬ 
zando jerarquias bien-disenadas, planificadores RJT, taies como PRS (Georgeff y Lansky, 
1987) y RAP (Firby, 1996), tanto como agentes de planificaciôn continua, se pudieron 
alcanzar tiempos de respuesta y comportamiento complejo en planificaciones a largo pla- 
zo, y en gran variedad de dominios. 

La planificaciôn multiagente ha saltado a la popularidad recientemente, aunque en 
realidad tiene una larga historia. Konolige (1982) proporcionô una formalizaciôn de la 
planificaciôn multiagente con lôgica de primer-ôrden, mientras que Pednault (1986) pro¬ 
porcionô una descripciôn de tipo Strips. La nociôn de intenciôn conjunta, esencial si 
los agentes tienen que ejecutar planes conjuntos, proviene del original trabajo sobre ac- 
tos de comunicaciôn (Cohen y Levesque, 1990; Cohen et al., 1990). El tratamiento que 
hemos presentado sobre planificaciôn multicuerpo de orden parcial esta basado en el tra¬ 
bajo de Boutilier y Brafman (2001). 

Apenas se ha tratado por encima el problema de la negociaciôn en planificaciôn mul¬ 
tiagente. Durfee y Lesser (1989) estudian como pueden ser compartidas las tareas en¬ 
tre agentes a través de la negociaciôn. Kraus et al. (1991) describiô un sistema para 
pradicar Diplomacia, un juego complejo que requiere negociaciôn, formaciôn de coa- 
liciones y disoluciôn, y corrupciôn. Stone (2000) muestra como los agentes pueden co¬ 
opérer como companeros de equipo en entornos competitivos, dinâmicos y parcialmente 
observables de robots futbolistas. (Weiss, 1999) es una amplia révision de los sistemas 
multiagentes. 

El modelo de agente-pâjaro citado en el Apartado 12.7 se debe a Reynolds (1987), 
que ganô un oscar de la Academia por la aplicaciôn a la simulaciôn de bandadas de mur- 
ciélagos y de pingüinos en Batman Returns. 



EJERCICIOS 

12,1 Examine cuidadosamente la representacion de tiempo y recursos en la Secciôn 12.1. 

a) / Por qué es una buena idea que Duraciôn(d ) sea un efecto de una accion, mas 
que tener un campo separado de la accion y de la forma Duration: dl ( Pista: 
considérense efectos condicionales y disyuntivos.) 

b) /Por qué es Recurso: m un campo separado de la accion, y no un efecto? 
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recurso fungible 12.2 Un recurso fungible es un recurso que es (parcialmente) utilizado por una ac¬ 
ciôn. Por ejemplo, los elementos de sujeciôn de un coche requieren tomillos, que una 
vez usados no estân disponibles para otros usos. 

a) Explique cômo modificar la representaciôn de la Figura 12.3 para que existan 
100 tornillos inicialmente (la mâquina E l requiere 40 unidades, y la E 2 unos 50). 
Las funciones simbolo + y — pueden ser usadas en literales para recursos. 

b ) Explique cômo la definiciôn de conflicto entre enlaces causales y acciones en 
planificaciôn de orden parcial debe ser modificada para tratar con recursos fun- 
gibles. 

c) Algunas acciones (por ejemplo, el suministro a la industria de tornillos o de fuel 
en los coches) pueden incrémental • la disponibilidad de recursos. Un recurso es 
monôtonamente decreciente si no existe acciôn que lo incremente. Explique 
cômo usar esta propiedad para podar opciones en el espacio de büsqueda. 

12.3 Proponga descomposiciones para las fases ContratarConstructor y ObtenerPer- 
miso de la Figura 12.7, y muestre cômo los planes descompuestos se conectan entre si 
en el plan global. 

12.4 Proponga un ejemplo, en el dominio de la construcciôn de casas, de dos subpla¬ 
nes abstractos que no puedan emerger en un plan consistente si no se contemplan eta- 
pas compartidas. ( Pista : sitios donde dos partes de la casa converjan son también lugares 
donde dos subplanes interactuan.) 

12.5 Varios autores dicen que la ventaja de la planificaciôn RJT es que puede resol- 
ver problemas del tipo «organizar un viaje desde Los Angeles a Nueva York y volver» 
que son dificiles de expresar en notaciôn no-RJT porque los estados inicial y final coin- 
ciden ( En{LA )). / ; Es posible encontrar una forma de representar y resolver este proble- 
ma sin RJTs? 

12.6 Muestre cômo una descripciôn de acciones Strips estândar puede ser descrita 
como una descomposiciôn RJT, utilizando la notaciôn Alcanzado(p) para denotar la ac- 
tividad de alcanzar la condiciôn p. 

12.7 Algunas de las operaciones de los lenguajes de programaciôn pueden ser mode- 
ladas como acciones que cambian el estado del mundo. Por ejemplo, la operaciôn co¬ 
pias de contenidos asigna una localizaciôn en la memoria, mientras que la operaciôn 
imprimir cambia el estado del stream de salida. Un programa que conste de estas ope¬ 
raciones puede también ser considerado un plan, cuyo objetivo viene dado por la espe- 
cificaciôn de un programa. Por tanto, los algoritmos de planificaciôn pueden ser usados 
para construir programas que alcancen una especificaciôn dada. 

a) Escriba un esquema de operador para el operador asignaciôn (hacer corresponder 
el valor de una variable a otra). Recuérdese que el valor original sera sobrescrito. 

b) Muestre cômo la creaciôn de objetos puede ser usada por un planificador que 
produzca un plan para el intercambio de valores de dos variables utilizando una 
variable temporal. 

12.8 Considérese el siguiente argumento: en un marco que permita estados iniciales 
con incertidumbre, los efectos disyuntivos son solo una notaciôn de conveniencia, no 
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una fuente de poder representacional adicional. Para cualquier esquema de acciones con 
efectos disyuntivos, tal como P v Q, podremos reemplazarla con efectos condicionales 
cuando R: P a cuando ->/?: Q, lo que a su vez puede ser reducido a dos acciones regu- 
lares. La proposicion R establece una proposicion aleatoria que es desconocida en el es- 
tado inicial y para la cual no existen acciones sensoriales. ^Es éste un argumento 
correcto? Considéré de forma separada dos casos, uno en el que una instancia del es¬ 
quema de accion a esté en el plan, y otra en la que mas de una instancia esté. 

12.9 / ; Por qué la planificaciôn condicional no puede tratar con la indeterminaciôn ili- 
mitada? 

12.10 En el mundo de los bloques nos vimos forzados a introducir acciones Strips, 
Mover y MoverseHaciaMesa, con el fin de mantener el predicado Limpiar correcto. 
Muestre como los efectos condicionales pueden ser usados para representar ambos ca¬ 
sos con una ünica accion. 

12.11 Los efectos condicionales se presentaron para la accion Aspirar en el mundo 
aspiradora (que limpia en funciôn de cual sea la localizaciôn que ocupa el robot). / ; Po- 
dria pensarse en un nuevo conjunto de variables proposicionales para définir estados 
del mundo aspiradora, de modo que Aspirar tenga una descripcion no-condicional? Es- 
crfbanse las descripciones Aspirar, Izquierda y Derecha, usando éstas nuevas propo- 
siciones, y demuéstrese que son suficientes para describir todos los estados posibles 
del mundo. 

12.12 Escriba la descripcion compléta de Aspirar para el problema de la aspiradora 
«doble Murphy» que algunas veces depositaba suciedad cuando se movfa a un destino 
ya limpio y otras veces depositaba suciedad si Aspirar era aplicado a localizaciones lim- 
pias. 

12.13 Encuentre una moqueta adecuadamente sucia, libre de obstâculos, y apliquele 
una aspiradora. Dibuje la ruta tomada por la aspiradora tan aproximada como se pueda. 
Explique el porqué de esta ruta relacionândola con las formas de planificaciôn discuti- 
das en el capitulo. 

12.14 Las siguientes citas estân tomadas de la parte posterior de botes de champü. Iden- 
tifique cual de ellas es no-condicional, condicional o un plan de vigilancia de ejecuciôn. 
(a) «Enjabonar. Aclarar. Repetir». (b) «Aplicar champü en el cuero cabelludo y dejarlo 
durante varios minutos. Aclarar y repetir si fuese necesario». (c) «Visitar un médico si 
el problema persiste». 

12.15 El algoritmo Bijsqueda en Grafos And-Or de la Figura 12.10 chequea esta¬ 
dos repetidos solamente sobre la ruta que va de la raiz al estado actual. Supongamos que, 
ademâs, el algoritmo almacena datos cada instante de tiempo y los chequea con la lista 
(véase BÜSQUEDA en grafos en la Figura 3.19, para un ejemplo). Détermine la infor- 
maciôn que deberia ser almacenada y como el algoritmo deberia usar esa informaciôn 
cuando es encontrado un estado repetido. (Pista: se necesitarâ distinguir entre estados 
para los cuales un subplan de éxito se construya previamente y estados a los que no se 
les puede encontrar ningün subplan.) Explique como usar étiquetas para evitar tener mu- 
chas copias de los subplanes. 
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12.16 Explique de modo preciso cômo modificar el algoritmo Büsqueda en Grafos 
And-Or para generar un plan ciclico si no existe plan aciclico. Se necesitarâ tratar con 
très elementos: etiquetar las etapas de los planes de modo que un plan ciclico pueda apun- 
tar de nuevo a una parte anterior del plan, modificando la Büsqueda-Or de forma que 
continüe buscando planes aciclicos después de encontrar un plan ciclico, y aumentar la 
representaciôn del plan para indicar si un plan es ciclico. Muestre cômo el algoritmo tra- 
baja en (a) el mundo de la aspiradora «triple Murphy», y (b) el opuesto mundo «doble 
Murphy». Si se puede, utilizar un computador para chequear resultados. ^Puede ser es- 
crito el plan para el caso (b) utilizando sintaxis de bucles estândar? 

12.17 Especifique un procedimiento de actualizaciôn de estados de creencias para en- 
tornos parcialmente observables. Esto es, un método para computar la representaciôn de 
un nuevo estado de creencias (como una lista de proposiciones de conocimiento) par- 
tiendo de la representaciôn del estado actual de creencias y la representaciôn de accio- 
nes con efectos condicionales. 

12.18 Escriba descripciones de acciones, anâlogas a la Ecuaciôn (12.2), para las ac- 
ciones Derecha y Aspirar. De igual forma, escriba una descripciôn para ChequearLo- 
calizaciôn, anâloga a la Ecuaciôn (12.3). Repetirlo usando el conjunto de proposiciones 
altemativo del Ejercicio 12.11. 

12.19 Eche un vistazo a la lista del Apartado 12.6 acerca de las cosas que el agente de 
replanificaciôn no puede hacer. Esboce un algoritmo que pueda tratar una o mas de és- 
tas limitaciones. 

12.20 Considérese el siguiente problema: un paciente llega a la consulta del médico 
con smtomas que pueden haber sido provocados por deshidrataciôn o enfermedad D (pero 
no por ambas). Existen dos posibles acciones: Beber, lo que cura la deshidrataciôn, y 
Medicar que cura la enfermedad D, pero que tiene un efecto colateral poco deseable si 
el paciente lo toma cuando esta deshidratado. Escriba la descripciôn del problema en 
PDDL, y haga un diagrama del plan sin sensores que resuelva el problema, enumeran- 
do todos los mundos posibles que sean relevantes. 

12.21 Para el problema de la medicaciôn del ejercicio anterior, anada una acciôn Test 
que tenga el efecto condicional EnriquecimientoCultural cuando la Enfermedad es ver- 
dad y que para cualquier caso tenga el efecto perceptivo Conocido(Enriquecimiento- 
Cultural). Dibuje un diagrama de un plan condicional que resuelva el problema y 
minimice el uso de la acciôn Medicar. 



13 Incertidumbre 


— 

Donde se verâ lo que un agente deberîa hacer cuando no todo estâ claro cristalino. 


13.1 Comportamiento bajo incertidumbre 



INCERTIDUMBRE 


Los agentes logicos que se describieron en las Partes III y IV hacen las asignaciones epis- 
temologicas de que las proposiciones son ciertas, falsas o desconocidas. Cuando un agen¬ 
te conoce hechos suficientes sobre su entorno, el enfoque de la lôgica le permite obtener 
planes con garantias para su desarrollo. Esto estâ bien. Desafortunadamente, los agen¬ 
tes casi nunca tienen acceso a toda la verdad sobre su entorno. Los agentes deben, asi, 
saber comportarse bajo incertidumbre. Por ejemplo, un agente en el mundo wumpus 
del Capitulo 7 tiene sensores que le muestran solo informacion local; la mayor parte del 
mundo no se observa inmediatamente. Un agente wumpus se encontrarâ a menudo in- 
capaz de descubrir cuâl de los dos cuadrados contiene un pozo. Si esos cuadrados estân 
en la ruta hacia el oro, enfonces el agente tendria que arriesgarse y entrar en uno de los 
dos cuadrados. 

El mundo real es mucho mas complejo que el mundo wumpus. Para un agente 16- 
gico, séria imposible construir una descripciôn compléta y exacta de como se desarro- 
llarân sus acciones. Suponga, por ejemplo, que el agente quiere conducir algo para 
tomar un vuelo y considéra un plan, A 90 , que supone dejar la casa 90 minutos antes de 
que saïga el vuelo y conducir a una velocidad razonable. Incluso aunque el aeropuerto 
esté tan solo a unas 15 millas, el agente no inferirâ con certidumbre que «El Plan A go 
nos llevarâ al aeropuerto a tiempo». En lugar de eso, llega a la conclusion mas débil «El 
Plan A 90 nos llevarâ al aeropuerto a tiempo, siempre que mi coche no se averfe o se que- 
de sin gasolina, y no tenga un accidente, y no haya accidentes en el puente, y el avion 
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no saïga anticipadamente, y...». Ninguna de estas condiciones pueden deducirse, por lo 
que no puede inferirse el éxito del plan. Este es un ejemplo del problema de la cuali- 
fîcaciôn mencionado en el Capitulo 10. 

Si un agente logico no puede concluir que cualquier secuencia concreta de acciones 
alcance su objetivo, entonces sera incapaz de actuar. La planificaciôn condicional pue¬ 
de derrotar a la incertidumbre hasta cierto punto, solo si las acciones del agente pueden 
obtener la informacion que se requiere y solo si no hay demasiados imprevistos diferentes. 
Otra posible soluciôn séria dotar al agente con una simple pero erronea teoria del mun- 
do que le permita deducir un plan; presumiblemente, esos planes funcionarân la mayo- 
ria de las veces, pero los problemas se presentan cuando los acontecimientos contradicen 
la teoria del agente. Mas aün, el tratamiento del equilibrio entre la précision y la utili- 
dad de la teoria del agente parece en si mismo que requiere razonamiento sobre incer¬ 
tidumbre. En resumen, los agentes que no sean puramente lôgicos serân capaces de 
concluir que el plan A 90 es el correcto a desempenar. 

Aün con todo, supongamos que A 90 es el apropiado a realizar. / ; Qué queremos decir 
al afirmar esto? Como discutimos en el Capitulo 2, queremos decir que de todos los pla¬ 
nes que podrian llevarse a cabo, se espera que el /\ 90 maximice la medida de desarrollo 
del agente, dada la informacion que tiene sobre el entorno. La medida de désarroi io in- 
cluye el llegar a tiempo al aeropuerto para el vuelo, evitar una espera larga e improduc - 
tiva en el aeropuerto, y evitar prisas en poner étiquetas cerca del pasaje. La informacion 
que tiene el agente no puede garantizar ninguno de estos resultados finales para A 90 , pero 
puede proporcionar algün grado de creencia de que pueda lograrse. Otros planes, tal como 
el A 120 , podrian incrementar la creencia del agente de que llegarâ al aeropuerto a tiem¬ 
po, pero también pueden incrementar la posibilidad de una mayor espera. Lo correcto 
a realizar (la decision racional) dépende tanto de la importancia relativa de los distin- 
tos objetivos como de la verosimilitud y el grado con el cual se conseguirân. El resto de 
esta seccion afina estas ideas, como parte de los preparativos del desarrollo de las teo- 
rias generales de razonamiento incierto y decisiones racionales que presentamos en este 
y subsiguientes capitulos. 


Manipulaciôn del conocimiento incierto 

En esta seccion veremos mas detenidamente la naturaleza del conocimiento incierto. Usa- 
remos un ejemplo de diagnostico sencillo para ilustrar los conceptos involucrados. El 
diagnostico (ya sea para medicina, reparacion de automôviles, o lo que quiera) es una 
tarea que casi siempre involucra incertidumbre. Intentemos escribir las réglas para diag¬ 
nostico dental usando la logica de predicados de primer orden, para que asi podamos ver 
como fracasa la aproximacion logica. Considéré la siguiente régla: 

yp Sîntomaip, Dolor-de-muelas) => Enfermedadip, Caries ) 

El problema es que esta régla es erronea. No todos los pacientes con dolor de muelas 
tienen caries; algunos tienen dolencia de encias, una acumulacion de pus (absceso), u 
otro problema distinto: 

\/p Sîntomaip, Dolor-de-muelas) => Enfermedadip,Caries) 

v Enfermedadip,Dolor-de-muelas) v Enfermedadip Absceso)... 
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Desafortunadamente, para hacer la régla cierta, tenemos que anadir una lista casi ilimi- 
tada de causas posibles. Podriamos intentar convertir la régla en una régla causal: 

V p Enfermedad(p, Caries) => Sintoma(p, Do lor-de-mue la s) 

Pero esta régla no es cierta tampoco: no todas las caries causan dolencias. El ünico modo 
para arreglar la régla es hacerla lôgicamente exhaustiva: incrementar el lado izquierdo 
de la régla con todos los requisitos necesarios para que una caries cause un dolor de mue- 
las. Incluso entonces, para los propositos del diagnostico, uno debe también tener en cuen- 
ta la posibilidad de que el paciente podria tener un dolor de muelas y una caries que no 
estén relacionados. 

Intentar usar la logica de predicados de primer orden para hacer frente a un domi- 
nio como el diagnostico médico de este modo falla por très razones principales: 

Pereza: poner en una lista el conjunto completo de antecedentes y consecuentes 
que se necesitan para asegurar una régla sin excepciones tiene demasiado trabajo 
y usar taies réglas es bastante difîcil. 

Ignorancia Teôrica: la ciencia médica no tiene una teorfa compléta para el do- 
minio. 

Ignorancia Prâctica: incluso si conocemos todas las réglas, pudiera ser incierto 
sobre un paciente particular, ya sea porque no se hayan realizado todos los chequeos 
necesarios o porque no puedan realizarse. 


PEREZA 

IGNORANCIA TEORICA 

IGNORANCIA 

PRÂCTICA 


GRADO DE CREENCIA 

TEORIA DE 
LA PROBABILIDAD 



La conexiôn entre dolor de muelas y caries no es exactamente una consecuencia logica 
en ninguna direcciôn. Esto es tipico en el dominio médico, al igual que en la mayoria 
de otros dominios sentenciosos: leyes, negocios, diseno, reparacion de automoviles, jar- 
dineria, casamientos, etc. El conocimiento del agente puede como mucho proporcionar 
solo un grado de creencia en las oraciones relevantes. Nuestra principal herramienta 
para tratar con grados de creencia sera la teoria de la probabilidad, que asigna a cada 
oracion un grado numérico de creencia entre 0 y 1. (Algunos métodos alternatives para 
razonamiento incierto se tratan en la Seccion 14.7.) 

La probabilidad proporciona una manera de resumir la incertidumbre que se déri¬ 
va de nuestra pereza e ignorancia. No podriamos saber con seguridad lo que aqueja a un 
paciente particular, pero podriamos creer que hay, digamos, un 80 por ciento de posibi¬ 
lidad (esto es, una probabilidad de 0,8) de que el paciente tiene una caries si él o ella tie¬ 
ne un dolor de muelas. Esto es, hasta donde llega el conocimiento del agente esperamos 
que de todas las situaciones que son indistinguibles de la situacion actual, el paciente ten¬ 
dra una caries en el 80 por ciento de ellas. Esta creencia podria provenir de datos esta- 
disticos (el 80 por ciento de los pacientes observados hasta este momento con dolor de 
muelas han tenido caries) o de algunas réglas generales, o de una combinacion de fuen- 
tes de indicios. El 80 por ciento résumé aquellos casos en los que estân présentes todos 
los factores necesarios para una caries que causa un dolor de muelas y otros casos en los 
que el paciente tiene tanto dolor de muelas como caries pero los dos estân desconecta- 
dos. El 20 por ciento restante résumé todas las otras causas posibles de dolor de muelas 
para los que somos demasiado perezosos o ignorantes en confirmar o desmentir. 

Asignar probabilidad 0 a una oracion determinada corresponde a una creencia ine- 
quivoca de que la oracion es falsa, mientras que asignar una probabilidad de 1 corres- 
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ponde a una creencia rotunda de que la oraciôn es cierta. Las probabilidades entre 0 y 1 
corresponden a grados intermedios de creencia en la veracidad de la oraciôn. La oraciôn 
en si misma es de hecho o verdadera o falsa. Es importante notar que el grado de cre¬ 
encia es diferente de un grado de veracidad. Una probabilidad de 0,8 no significa «80 
por ciento verdadero» sino un 80 por ciento de grado de creencia, eso es, una expecta- 
tiva realmente fuerte. Asi, la teoria de la probabilidad cumple la misma obligaciôn on- 
tolôgica que la lôgica (a saber, los hechos o se sostienen o no en el mundo). Los grados 
de veracidad, a diferencia de los grados de creencia, es la materia de la lôgica borrosa, 
que sera tratada en la Secciôn 14.7. 

En lôgica, una oraciôn tal como «El paciente tiene una caries» es verdadera o falsa 
dependiendo de la interpretaciôn del mundo; es verdad solo cuando el hecho al que hace 
referencia es el caso. En la teoria de la probabilidad, una oraciôn tal como «La proba¬ 
bilidad de que el paciente tiene una caries es 0,8» hace referencia a las creencias del agen¬ 
te, no directamente sobre el mundo. Estas creencias dependen de las percepciones que 
evidencia el agente ha recibido hasta el momento. Estas percepciones constituyen la evidencia so¬ 

bre la que se basan las afrrmaciones de probabilidades. Por ejemplo, suponga que el agen¬ 
te saca una carta de un mazo ya barajado. Antes de mirar la carta, el agente asignarfa 
una probabilidad de 1/52 de que se trata del as de picas. Después de mirar la carta, una 
probabilidad adecuada para la misma proposiciôn deberia estar entre 0 y 1. Asi, una asig- 
naciôn de probabilidad a una proposiciôn es anâlogo a decir si una oraciôn lôgica de- 
terminada (o su negaciôn) esta producida por la base de conocimiento, mas que si es o 
no cierta. Al igual que el estatus de lo producido puede cambiar cuando se anaden mas 
oraciones a la base de conocimiento, las probabilidades pueden cambiar cuando se ad- 
quiere mas evidencia 1 . 

Todas las oraciones de probabilidad deben asi indicar la evidencia con respecto a 
la cual se esta calculando la probabilidad. Cuando un agente recibe nuevas percepcio¬ 
nes, sus valoraciones de probabilidad se actualizan para reflejar la nueva evidencia. An¬ 
tes de que la evidencia se obtenga, hablaremos de probabilidad a priori o incondicional; 
después de obtener la evidencia, hablaremos de probabilidad a posteriori o condicio- 
nal. En la mayoria de los casos, un agente tendra alguna evidencia de sus percepciones 
y sera interesante calcular las probabilidades posteriores de las consecuencias que le preo- 
cupan. 

Incertidumbre y decisiones racionales 

La presencia de incertidumbre cambia radicalmente el modo en que un agente toma de¬ 
cisiones. Un agente lôgico tiene tipicamente un objetivo y ejecuta cualquier plan que le 
garantice alcanzarlo. Una acciôn puede seleccionarse o rechazarse sobre la base de si 
alcanza el objetivo, sin tener en cuenta lo que otras acciones podrfan alcanzar. Pero este 
no es el caso cuando la incertidumbre interviene en la situaciôn. Consideremos de nue- 


1 Esto es completamente diferente a como llegue a ser la verdad o falsedad de una oraciôn cuando el mun¬ 
do cambia. Manejar mundos cambiantes via probabilidades requiere los mismos tipos de mecanismos (si- 
tuaciones, intervalos y eventos) que los usados en el Capitulo 10 para representaciones lôgicas. Estos 
mecanismos se discuten en el Capitulo 15. 
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vo el plan A 90 para llegar al aeropuerto. Suponga que tiene un 95 por ciento de posibili- 
dad de que surta efecto. /Esto significa que es una elecciôn racional? No necesariamente: 
puede que estén otros planes, como el A l20 , con probabilidades mas altas de que den re- 
sultado. Si es vital o no perder el vuelo, enfonces vale arriesgarse a una mayor espera 
en el aeropuerto. / ; Y qué tal el A ]440 , un plan que involucra dejar la casa en mas de 24 
horas? En la mayoria de las circunstancias, esto no es una buena elecciôn, porque, aun- 
que casi garantiza llegar a tiempo, involucra una espera intolérable. 

Para tomar taies elecciones, un agente debe primera tener preferencias entre las di- 
ferentes consecuencias posibles de los diversos planes. Una consecuencia particular es 
un estado completamente especificado, incluyendo factores taies como si el agente 11e- 
ga a tiempo y el tiempo de espera en el aeropuerto. Usaremos la teorfa de la utilidad 
para representar y razonar con preferencias. (El término utilidad se usa aqui en el sen- 
tido de «la calidad de ser ütil», no en el sentido de compania eléctrica o planta purifi- 
cadora de agua.) La teoria de la utilidad establece que cada estado tiene un grado de 
utilidad, o beneficio, para un agente y que el agente preferirâ los estados con mayor uti¬ 
lidad. 

La utilidad de un estado concierne al agente cuyas preferencias supuestamente es- 
tân representadas por la funciôn de utilidad. Por ejemplo, las funciones de pago para 
juegos en el Capitulo 6 son funciones de utilidad. La utilidad de un estado en el que las 
blancas han ganado un juego de ajedrez es obviamente elevada para el agente que jue- 
ga blancas, pero baja para el agente que juega negras. De nuevo, algunos jugadores (in¬ 
cluyendo los autores) serian felices con unas tablas frente al campeôn del mundo, 
mientras que otros jugadores (incluyendo el antiguo campeôn del mundo) podrfan no 
serlo. Sobre gustos o preferencias no hay nada escrito: podria pensar que un agente que 
prefiere helado de pompas de chicle de jalapeno a patatas fritas de chocolaté es extra¬ 
no o incluso equivocado, pero no podria decir que el agente es irracional. Una funciôn 
de utilidad puede incluso explicar el comportamiento altmista, simplemente incluyen¬ 
do el «bienestar» de otros como uno de los factores que contribuyen a la utilidad pro- 
pia del agente. 

Las preferencias, expresadas como utilidades, se combinan con probabilidades en 
la teoria general de decisiones racionales llamada teoria de la decision: 

Teoria de la Decision = teoria de la probabilidad + teoria de la utilidad 

La idea fundamental de la teoria de la decision es que un agente es racional si y solo si 
elige la acciôn que le produce la utilidad esperada mâs alta, en promedio sobre todas 
las posibles consecuencias de la acciôn. Esto es conocido como el principio de Mâxi- 
ma Utilidad Esperada (MUE). Vimos este principio en acciôn en el Capitulo 6 cuan- 
do tocamos brevemente las decisiones ôptimas para el backgammon. Veremos que es de 
hecho un principio completamente general. 

Diseno de un agente de decision teôrico 

La Ligura 13.1 esboza la estructura de un agente que usa la teoria de la decision para 
seleccionar acciones. El agente es idéntico, a un nivel abstracto, al agente lôgico des- 
crito en el Capitulo 7. La diferencia principal es que el conocimiento del agente de de- 
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estado de creencia cisiôn teorico para el estado en curso es incierto; el estado de creencia del agente es 
una representaciôn de las probabilidades de todos los posibles estados actuales del mun- 
do. Cuando pasa el tiempo, el agente acumula mas evidencia y su estado de creencia 
cambia. Dado el estado de creencia, el agente puede hacer predicciones probabilisti- 
cas de las consecuencias de la acciôn y asi seleccionar la acciôn con utilidad espera- 
da mas alta. Este capitulo y el siguiente se centran en la tarea de la representaciôn y 
computaciôn con informaciôn probabilista en general. El Capitulo 15 esta relaciona- 
do con los métodos para las tareas especificas de la representaciôn y la actualizaciôn 
del estado de creencia y predicciôn del entorno. El Capitulo 16 recorre la teoria de la 
utilidad en mayor profundidad, y el Capitulo 17 desarrolla algoritmos para tomar de- 
cisiones complejas. 


funciôn Agente-DT (perception) retorna una action 

estâtico: estado_de_creencia, creencias probabilistas sobre el estado actual del mundo 
accion, la accion del agente 

actualizar estado_de_creencia basado en action y perception 
calcular las probabilidades de las consecuencias para las acciones, 

dadas las descripciones de las acciones y el actual estado de_creencia 
seleccionar action con utilidad esperada mas alta, 

dadas las probabilidades de las consecuencias y la informaciôn de utilidad 
retorna acciôn 


Figura 13.1 Un agente de decision teorico que selecciona acciones racionales. Los pasos serân 
desarrollados en los cinco capitulos siguientes. 


13.2 Notacion bâsica con probabilidades 


Ahora que hemos establecido el marco general para un agente racional, necesitaremos 
un lenguaje formai para la representaciôn y el razonamiento con conocimiento incier¬ 
to. Cualquier notacion para describir grados de creencia debe ser capaz de tratar dos cues- 
tiones principales: la naturaleza de las oraciones para las que se asignan grados de 
creencia y la dependencia del grado de creencia en la experiencia del agente. La version 
de la teoria de la probabilidad que presentamos usa una extension de la lôgica proposi- 
cional para sus oraciones. La dependencia en la experiencia se refleja en la distinciôn 
sintâctica entre la probabilidad priori de las oraciones, que se aplica antes de que se ob- 
tenga cualquier evidencia, y la probabilidad condicional de las oraciones, que incluye 
la evidencia explicitamente. 

Proposiciones 

Los grados de creencia se aplican siempre a las proposiciones (afirmaciones de que tal 
o cual es el caso). Hasta ahora hemos visto dos leguajes formales (la lôgica proposicio- 
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nal y la lôgica de primer orden) para la declaraciôn de proposiciones. La teorfa de la pro- 
babilidad tipicamente usa un lenguaje que es ligeramente mas expresivo que la lôgica 
proposicional. Esta secciôn describe ese lenguaje. (La Secciôn 14.6 discute modos para 
atribuir grados de creencia a afirmaciones en la lôgica de primer orden.) 

El elemento bâsico del lenguaje es la variable aleatoria, que puede pensarse como 
algo que se refiere a una «parte» del mundo cuyo estatus es desconocido inicialmente. 
Por ejemplo, Caries podria referirse a si mi muela del juicio inferior izquierda tiene una 
caries. Las variables aleatorias representan un papel similar al de las variables PSR en 
problemas de satisfacciôn de restricciones y al de los sûnbolos proposicionales en lôgi¬ 
ca proposicional. Siempre escribiremos en mayüsculas los nombres de las variables alea¬ 
torias (sin embargo, también usaremos nombres en una letra minüscula para representar 
una variable aleatoria desconocida, por ejemplo: P{a) = 1 — P(—i a)). 

Cada variable aleatoria tiene un dominio de posibles valores que puede tomar. Por 
ejemplo, el dominio de Caries podria ser ( cierto,falso ) 2 . (Usaremos minüsculas para los 
nombres de los valores.) El tipo mas sencillo de proposiciôn afirma que una variable ale¬ 
atoria tiene un valor particular tomado de su dominio. Por ejemplo Caries = cierto re- 
presentaria la proposiciôn de que en efecto tengo una caries en mi muela del juicio inferior 
izquierdo. 

Como con las variables PSR, las variables aleatorias estân tipicamente divididas en 
très clases, dependiendo del tipo de dominio: 

• Las variables aleatorias booleanas, tal como Caries, tienen el dominio ( cierto, 
falso). A menudo abreviaremos una proposiciôn como Caries = cierto simplemente 
por el nombre en minüsculas caries. Igualmente, Caries = falso se abreviaria por 
—i caries. 

• Las variables aleatorias discretas, que incluyen las variables aleatorias boolea¬ 
nas como un caso especial, toman valores en un dominio contable. Por ejemplo, 
el dominio de Tiempo séria ( soleado, lluvioso, nublado, nevado). Los valores del 
dominio deben ser mutuamente exclusivos y exhaustivos. Cuando no haya confu¬ 
sion, usaremos, por ejemplo, nevado como una abreviaciôn de Tiempo = nevado. 

• Las variables aleatorias continuas toman sus valores de los nümeros reales. El 
dominio puede ser o toda la recta real o algün subconjunto como el intervalo [0,1]. 
Por ejemplo, la proposiciôn X = 4,02 afirma que la variable aleatoria X toma el 
valor exacto 4,02. Las proposiciones concemientes a las variables aleatorias con¬ 
tinuas pueden ser también desigualdades, como X < 4,02. 


Con algunas excepciones, centraremos nuestra atenciôn en el caso discreto. 

Bâsicamente, las proposiciones como Caries — cierto y Dolor-de-muelas = falso, 
pueden combinarse para construir proposiciones complejas usando todos los conectivos 
lôgicos estândares. Por ejemplo, Caries = cierto a Dolor-de-muelas = falso es una pro¬ 
posiciôn a la que uno puede asignar un grado de creencia o escepticismo. Como se ex- 
plicô en el pârrafo previo, esta proposiciôn puede también escribirse como caries a 
-ndolor-de-muelas. 


2 Quizâs esperara que el dominio se escribiera como un conjunto: {cierto, falso}. Lo escribimos como una 
lupla porque posteriormente nos convendrâ para imponer una ordenaciôn en los valores. 
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Sucesos atomicos 

La nociôn de suceso atômico es ütil para entender los fundamentos de la teoria de la 
probabilidad. Un suceso atômico es una especificaciôn compléta del estado del mundo 
sobre el que el agente esta inseguro. Puede pensarse en él como la asignaciôn de valo- 
res particulares de todas las variables que componen el mundo. Por ejemplo, si mi mun¬ 
do consta solo de las variables booleanas Caries y Dolor-de-muelas, enfonces hay 
exactamente cuatro sucesos atomicos; la proposiciôn Caries — falso a Dolor-de-mue- 
las = cierto es uno de taies sucesos 3 . 

Los sucesos atomicos tienen algunas propiedades importantes: 

• Son mutuamente exclusivos, a lo sumo solo uno puede darse. Por ejemplo, caries 
a dolor-de-muelas y caries a —\dolor-de-muelas no pueden darse simultânea- 
mente. 

• El conjunto de todos los sucesos atomicos es exhaustivo, al menos debe darse uno. 
Es decir, la disyunciôn de todos los sucesos atomicos es équivalente lôgicamente 
a cierto. 

• Cualquier suceso atômico implica la veracidad o falsedad de cada proposiciôn, ya 
sea simple o compleja. Esto puede verse usando la semântica estândar de los co- 
nectivos lôgicos (Capftulo 7). Por ejemplo, el suceso atômico caries a -^dolor-de- 
muelas conlleva la verdad de caries y la falsedad de caries => dolor-de-muelas. 

• Cualquier proposiciôn es lôgicamente équivalente a la disyunciôn de todos los su¬ 
cesos atomicos que implica la verdad de la proposiciôn. Por ejemplo, la proposi¬ 
ciôn caries es équivalente a la disyunciôn de los sucesos atomicos caries a 
dolor-de-muelas y caries a —. dolor-de-muelas. 

El Ejercicio 13.4 le pide que pruebe algunas de estas propiedades. 


Probabilidad priori 

La probabilidad a priori o incondicional asociada a una proposiciôn a es el grado de 
creencia que se le otorga en amenda de cualquier otra informaciôn ; y se escribe como 
P{a). Por ejemplo, si la probabilidad priori de que tenga una caries es 0,1, enfonces de- 
beriamos escribir 

P{Caries = cierto) = 0,1 o P {carie s) = 0,1. 

Es importante recordar que P{a) puede usarse solo cuando no hay otra informaciôn. Tan 
pronto como se conozca nueva informaciôn, debemos razonar con la probabilidad con- 
dicional de a dada esa nueva informaciôn. Las probabilidades condicionales se tratarân 
en la secciôn siguiente. 

En ocasiones, querremos hablar de las probabilidades de todos los valores posibles 
de una variable aleatoria. En ese caso, usaremos una expresiôn como P (Tiempo), que de- 


3 Muchas formulaciones estândares de la teoria de la probabilidad consideran los sucesos atomicos, también 
conocidos por puntos maestrales, como proposiciones primitivas y definen una variable aleatoria como una 
funciôn que toma como entrada a un suceso atômico y devuelve un valor del dominio apropiado. Esta apro- 
ximaciôn es quizâ mas general, pero también es menos intuitiva. 
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DISTRIBUCIÔN DE 
PROBABILIDAD 


DISTRIBUCION DE 

PROBABILIDAD 

CONJUNTA 


DISTRIBUCION DE 
PROBABILIDAD 
CONJUNTA COMPLETA 


FUNCIONES DE 
DENSIDAD 
DE PROBABILIDAD 


nota un vector de valores que corresponden a las probabilidades de cada estado indivi- 
dual del tiempo. Asi, en vez de escribir las cuatro ecuaciones 

P(Tiempo = soleado) = 0,7 
P(Tiempo = lluvioso) = 0,2 
P(Tiempo = nuboso) = 0,08 
P(Tiempo = nevado ) = 0,02. 

simplemente escribiremos 

P (Tiempo) = (0,7, 0,2, 0,08, 0,02). 

Esta expresiôn define una distribuciôn de probabilidad a priori para la variable alea- 
toria Tiempo. 

También usaremos expresiones como P {Tiempo, Caries) para denotar las probabi¬ 
lidades de todas las combinaciones de los valores de un conjunto de variables aleatorias 4 . 
En ese caso, PÇTiempo, Caries) puede representarse por una tabla de probabilidades de 
dimension 4X2. Esta se llama la distribuciôn de probabilidad conjunta de Tiempo 
y Caries. 

A veces sera ütil pensar sobre el conjunto completo de variables aleatorias que se 
utilicen para describir el mundo. Una distribuciôn de probabilidad conjunta que consi¬ 
déré este conjunto completo se llama la distribuciôn de probabilidad conjunta com¬ 
pléta. Por ejemplo, si el mundo consta exactamente de las variables Caries, 
Dolor-de-muelas y Tiempo, entonces la distribuciôn conjunta compléta viene dada por. 

P(Caries, Dolor-de-muelas, Tiempo) 

Esta distribuciôn conjunta puede representarse como una tabla de dimension 2X2X4 
con 16 entradas. Una distribuciôn conjunta compléta especifica la probabilidad de cada 
suceso atômico y es asi una especificaciôn compléta de la incertidumbre que tiene uno 
sobre el mundo en cuestiôn. Veremos en la Secciôn 13.4 que cualquier pregunta proba- 
bilista puede responderse a partir de la distribuciôn conjunta compléta. 

Para variables continuas, no es posible escribir la distribuciôn compléta como una 
tabla, ya que hay infinitos valores. Es mas, usualmente uno define la probabilidad de que 
una variable aleatoria toma algün valor x como una funciôn parametrizada de x. Por ejem¬ 
plo, consideremos que la variable aleatoria X dénota la temperatura mâxima de manana 
en Berkeley. Entonces la afirmaciôn 

P(X = x) = U[ 18, 26](x) 

expresa la creencia de que X se distribuye uniformemente entre 18 y 26 grados Celsius. 
(Algunas distribuciones continuas ütiles se definen en el Apéndice A.) Las distribucio- 
nes de probabilidad para variables continuas se llaman funciones de densidad de pro¬ 
babilidad. Las funciones de densidad difieren de las distribuciones discretas en su 
significado. Por ejemplo usando la distribuciôn de la temperatura dada anteriormente, 
comprobamos que P(X = 20,5) = U[ 18,26](20,5) = 0,125/C. Esto no significa que haya 


4 La régla general para la notacion es que la distribuciôn abarca todos los valores de las variables que estân 
en mayüsculas. Asi, una expresion como P {Tiempo, Caries ) es un vector de probabilidades de cuatro ele- 
mentos para la conjunciôn de cada tipo de tiempo con el caso Caries = cierto. 
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un riesgo del 12,5 por ciento de que manana la temperatura mâxima sera exactamente 
de 20,5 grados; la probabilidad de que esto ocurra es por supuesto de cero. El signifi- 
cado técnico es que la probabilidad de que la temperatura esta en una région pequena 
alrededor de los 20,5 grados es igual, en el limite, a 0,125 dividido por el ancho de la 
région en grados Celsius: 

lim P{ 20,5 < X < 20,5 + dx)/dx = 0,125/C 

dx —^ 0 

Algunos autores usan simbolos diferentes para distribuciones discretas y funciones de 
densidad; nosotros usaremos P en ambos casos, ya que en contadas ocasiones aparece 
confusion y las ecuaciones son usualmente idénticas. Notese que las probabilidades son 
nümeros sin unidad, mientras que las funciones de densidad estân medidas con una uni- 
dad, en este caso el valor reciproco de los grados. 


Probabilidad condicional 


PROBABILIDAD 

CONDICIONAL 


PROBABILIDAD 
A POSTERIORI 


Una vez que el agente obtiene alguna evidencia referente a las variables aleatorias des- 
conocidas que constituyen el dominio, las probabilidades priori ya no son aplicables. En 
vez de eso, usamos probabilidades a posteriori o condicionales. La notacion que se usa 
es P(a\b), donde a y h son proposiciones cualesquiera 5 . Esto se lee como «la probabili¬ 
dad de a, supuesto que todo lo que conozco es b». Por ejemplo, 

P{caries\dolor-de-muelas) = 0,8 


REGLA DEL 
PR0DUCT0 


indica que si se observa a un paciente que tiene un dolor de muelas y todavia no se tie- 
ne otra informacion disponible, entonces la probabilidad de que el paciente tenga una 
caries sera 0,8. Una probabilidad a priori, tal como P(caries), puede contemplarse como 
un caso especial de la probabilidad condicional P(caries\ ), donde la probabilidad se con- 
diciona a ninguna evidencia. 

Las probabilidades condicionales pueden definirse en términos de probabilidades no 
condicionales. La ecuacion que la define es: 

, P(a a b) 

P(a\b) = — -- (13.1) 

1 P(b) 

siempre que P{b) > 0. Esta ecuacion puede escribirse también como 

P{a a b) = P(a\b)P(b) 

que es conocida como la régla del producto. La régla del producto es quizâ mas fâcil 
de recordar asf: la régla proviene del hecho de que si a y h es cierto, necesitamos que b 
sea cierto, y también necesitamos que a sea cierto dado b. Podemos obtener la otra ré¬ 
gla dândole la vuelta: 

P(a a b) = P(b\a)P(a ) 


En algunos casos, es mas fâcil razonar en términos de probabilidades a priori de con- 
junciones, pero mayoritariamente usaremos probabilidades condicionales como nuestro 
instrumento para inferencia probabilista. 


5 El operador «|» liene la menor precedencia posible, as! P (a a b\c v d) significa P{(a a b)\(cv d)). 
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Podemos también usar la notaciôn P para distribuciones condicionales. P(X\Y) da los 
valores de Y(X = x\ Y = yi) para cada posible i,j. Como ejemplo de como esto hace nues- 
tra notaciôn mas breve, consideremos la aplicaciôn de la régla del producto a cada caso 
donde las proposiciones ay b asignan valores particulares aXeF respectivamente. Ob- 
tenemos las siguientes ecuaciones: 

P{X = x, a Y = y,) = P{X = Xl \Y = y,)P(X = y ,) 

P( X = Xl A Y = y 2 ) = P(X = jcj |Y = y 2 )P(Y = y 2 ) 


Podemos combinarlas todas en la ecuaciôn sencilla 

P(X, Y) = P(X|7)P(y) 

Recordar que esto dénota a un conjunto de ecuaciones relacionando las correspon- 
dientes entradas individuales en las tablas, y no una multiplieaciôn matricial de las 
tablas. 

Es tentador, pero errôneo, ver las probabilidades condicionales como si fueran 
implicaciones lôgicas a las que se les anade incertidumbre. Por ejemplo, la oraciôn 
P{a\b) = 0,8 no puede interpretarse para dar a entender que «si b se cumple, inferir 
que P{a) es 0,8». Tal interpretaciôn séria errônea por dos motivos: primero, P (a) 
siempre dénota a la probabilidad a priori de a, no la probabilidad a posteriori dada 
alguna evidencia; segundo, la oraciôn P(a\b) = 0,8 es valida justo en el momento en 
el que b es la ünica evidencia disponible. Cuando se dispone de la informaciôn adi- 
cional c, el grado de creencia en a es P{a\b a c), que puede tener poca relaciôn con 
P{a\b). Por ejemplo, c pudiera decirnos directamente si a es cierto o falso. Si recono- 
cemos a un paciente que se queja de dolor de muelas y descubrimos una caries, en¬ 
fonces tenemos la evidencia adicional caries, y concluimos (trivialmente) que 
P(caries\dolor-de-muelas a caries) = 1,0. 


13.3 Los axiomas de la probabilidad 


Hasta el momento, hemos definido una sintaxis para las proposiciones y para las ora- 
ciones probabilistas prioris y condicionales sobre esas proposiciones. Ahora debemos 
proporcionar algün tipo de semântica para las oraciones probabilistas. Comencemos 
con los axiomas bâsicos que sirven para définir la escala probabilista y sus puntos ex- 
tremos: 

1. Todas las probabilidades estân entre 0 y 1. Para cualquier proposiciôn a, 

0 < P(a) < 1 

2. Las proposiciones necesariamente ciertas (es decir, validas) tienen probabilidad 
1, y las proposiciones necesariamente falsas (es decir, insatisfactibles) tienen 
probabilidad 0. 


P(cierto) = 1 


Pifalso) = 0 
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£ÜE DÔNDE VIENEN LAS PROBABILIDADES? 

Se ha tenido un debate sin fin sobre la procédéncia y estatus de los nümeros probabilistas. La po- 
siciôn frecuencialista es que los nümeros pueden provenir solo de experimentos : si chequeamos a 
100 personas y encontramos que 10 de ellas tienen una caries, enfonces podemos decir que la pro- 
babilidad de una caries es aproximadamente 0,1. Desde esta perspectiva la afirmaciôn «la proba- 
bilidad de una caries es 0,1» significa que 0,1 es la fracciôn que deberia observarse en el limite de 
infinitas muestras. A partir de cualquier muestra finita, podemos estimar la fracciôn auténtica y tam- 
bién calcular cômo de exacta es nuestra estimaciôn para que sea la mas verosimil. 

La perspectiva objetiva es que las probabilidades son aspectos reales del universo (las predis- 
posiciones de los objetos a comportarse de cierta manera) mas que la descripciôn exacta de un gra- 
do de creencia del observador. Por ejemplo, que en una moneda no trucada se presenten las caras 
con probabilidad 0,5 es una predisposiciôn propia de la moneda. Desde esta perspectiva, las me- 
didas frecuencialistas son intentos para advertir estas predisposiciones. La mayoria de los fisicos 
estân de acuerdo con que los fenômenos cuânticos son objetivamente probabilistas, pero la incer- 
tidumbre a escala macroscôpica (por ejemplo, en lanzamientos de monedas) usualmente se origi- 
na de la ignorancia de las condiciones iniciales y no parece consistente con la perspectiva de las 
predisposiciones. 

La perspectiva subjetiva describe las probabilidades como un modo de caracterizar las creen- 
cias de un agente, mas que como la consideraciôn de cualquier trasfondo fisico del exterior. Esto 
permite al doctor o analista obtener los nümeros, para decir, «En mi opinion supongo que la pro¬ 
babilidad de una caries esta alrededor del 0,1». Distintas técnicas mas fidedignas, como los siste- 
mas de apuestas descritos anteriormente, también se han desarrollado para producir como respuesta 
estimaciones probabilistas a partir de los seres humanos. 

En el fondo, incluso una posiciôn frecuencialista estricta involucra anâlisis subjetivo, por lo 
que probablemente la diferencia tenga poca importancia prâctica. El problema de la clase de refe- 
rencia ilustra la intrusion de la subjetividad. Suponga que un doctor frecuencialista quiere cono- 
cer los riesgos de que un paciente tenga una enfermedad concreta. El doctor quiere tener en cuenta 
a otros pacientes que son similares en aspectos importantes (la edad, los sfntomas, quizâs el sexo) 
y ve a partir de ellos qué proporciôn tienen en la enfermedad. Pero si el doctor considéré todo lo 
conocido sobre el paciente (peso hasta el gramo mas cercano, color del pelo, nombre de soltera de 
la madré, etc.) el resultado séria que no hay otros pacientes que sean exactamente iguales y asf no 
hay clase de referencia de la que recoger datos experimentales. Esto ha sido un problema fastidio- 
so en la filosoria de la ciencia. 

El principio de indiferencia de Laplace (1816) establece que a las proposiciones que son sin- 
tâcticamente «simétricas» con respecto a la evidencia se les deberian asignar la misma probabili¬ 
dad. Se han propuesto diversas correcciones, culminando en el intento de Carnap y otros de 
desarrollar una lôgica inductiva rigurosa, capaz de calcular la probabilidad correcta para cualquier 
proposiciôn a partir de cualquier recopilaciôn de observaciones. Actualmente, se créé que no exis¬ 
te una ünica lôgica inductiva; o mejor dicho, cualquiera de esas lôgicas se apoya en una distribu- 
ciôn de probabilidad priori subjetiva cuyo efecto disminuye cuantas mas observaciones se recopilen. 
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AXIOMAS DE 
KOLMOGOROV 



A continuation, necesitamos un axioma que relacione las probabilidades de las propo- 
siciones que estân ligadas en términos lôgicos. El modo mas sencillo para hacer esto es 
définir la probabilidad de una disyuncion como sigue: 

3. La probabilidad de una disyuncion viene dada por 

P{a v b) = P(a ) + P(b) - P(a a b) 

Esta régla es mas fâcil de recordar si consideramos que los casos donde a es vâlido, jun- 
to con los casos donde b es vâlido, inequivocamente cubren todos los casos donde a y 
b son vâlidos; pero la suma de los dos conjuntos de casos cuenta su intersection dos ve- 
ces, asi que necesitamos restar P{a a b). 

A menudo estos très axiomas se conocen por axiomas de Kolmogorov en honor al 
matemâtico ruso Andrei Kolmogorov, quien demostrô como desarrollar el resto de la teo- 
rfa probabilista de este sencillo fundamento. Nôtese que los axiomas solo tratan con pro¬ 
babilidades a priori en vez de probabilidades condicionales; esto es porque ya hemos 
definido las ültimas en términos de la Ecuaciôn (13.1) anterior. 

Utilizaciôn de los axiomas de probabilidad 

Podemos obtener diversos resultados utiles a partir de los axiomas bâsicos. Por ejem- 
plo, la régla familiar para la négation se obtiene sustituyendo —.a por b en de la axio¬ 
ma 3, dândonos: 

P {a v —i a) = P (a) + P{—<a) - P (a a —.a) (por el axioma 3 con b = —i a) 
P{cierto) = P(a) + P(—\a) — Pifalso) (por equivalencia lôgica) 

1 = P {a) + P{— iûf) (por el axioma 2) 

P(—ia) = 1 — P (a) (por âlgebra) 

La tercera linea de esta déduction es en si misma un resultado ütil y puede extenderse 

del caso booleano al caso discreto general. Considéré D la variable discreta con domi- 
nio (d y .., d n ). Enfonces es fâcil demostrar (Ejercicio 13.2) que 

Y P(D = d,) = 1 
1 = 1 

Es decir, cualquier distribution de probabilidad sobre una sola variable debe sumar l 6 . 
Es también cierto que cualquier distribution de probabilidad conjunta sobre cualquier 
conjunto de variables debe sumar 1 : esto puede verse simplemente construyendo una sola 
megavariable cuyo dominio es el producto cartesiano de los dominios de las variables 
originales. 

Recuerde que cualquier proposition a es équivalente a la disyuncion de todos los su- 
cesos atômicos en los que a se verifica; llamaremos a este conjunto de sucesos e(a). Re¬ 
cuerde también que los sucesos atômicos son mutuamente exclusivos, as! que la 
probabilidad de cualquier conjunciôn de sucesos atômicos es cero, por el axioma 2. Asi, 
del axioma 3, podemos deducir la siguiente relation sencilla: La probabilidad de una 


6 Para variables continuas, la sumatoria se reemplaza por una intégral: P(X = x)clx = 1. 
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proposition es igual a la surna de las probabilidades de los sucesos atômicos en los que 
ésta se verifica\ esto es, 

P(a) = Z P(e,) (13.2) 

e. e e(a) 

Esta ecuaciôn proporciona un método sencillo para calcular la probabilidad de cualquier 
proposicion, dada una distribuciôn conjunta compléta que especifique las probabilida¬ 
des de todos los sucesos atômicos. ( Véase Secciôn 13.4.) En secciones subsiguientes ob- 
tendremos réglas adicionales para la manipulaciôn de probabilidades. Primero, sin 
embargo, examinaremos el fundamento de los axiomas. 

Por qué los axiomas de la probabilidad son razonables 

Los axiomas de la probabilidad pueden verse como la restricciôn del conjunto de cre- 
encias probabilistas que un agente puede considerar. Esto es un poco anâlogo al caso 16- 
gico, donde un agente lôgico no puede creer simultâneamente en A, fi y —.(A a fi), por 
ejemplo. Hay, sin embargo, una complicaciôn adicional. En el caso lôgico, la definiciôn 
semântica de conjunciôn significa que al menos una de las très creencias mencionadas 
debe serfalsa en el mundo, asf es ilôgico para un agente creer en las très. Con probabi¬ 
lidades, por otro lado, las oraciones no se refieren al mundo directamente, sino al esta- 
do de conocimiento propio del agente. / ; Por qué, entonces, no puede un agente considerar 
el siguiente conjunto de creencias, que claramente viola el axioma 3? 

P{a) = 0,4 P(a a b) = 0,0 

P{b) = 0,3 P(a v b) = 0,8 1 ' 

Este tipo de cuestiôn ha sido el tema de décadas de debate intenso entre aquellos que abo- 
gan por el uso de las probabilidades como la ünica forma légitima para los grados de creen- 
cia y aquellos que defienden aproximaciones altemativas. Aqui, damos un argumenta para 
los axiomas de la probabilidad, establecidos inicialmente en 1931 por Bruno de Finetti. 

La clave para el argumento de de Finetti es la conexiôn entre grados de creencia y 
acciones. La idea es que si un agente tiene algün grado de creencia en una proposicion 
a, entonces el agente deberia ser capaz de establecer boletos 7 que le son indiferentes a 
una apuesta a favor o en contra de a. Imaginelo como un juego entre dos agentes: el Agen¬ 
te 1 establece «mi grado de creencia en el suceso a es 0,4», el Agente 2 entonces es li¬ 
bre para elegir apostar tanto a favor como en contra de a, en juegos que son consistentes 
con el grado de creencia manifestado. Es decir, el Agente 2 podrfa apostar elegir que a 
ocurrirâ, apostando cuatro dôlares contra los seis dôlares del Agente 1. O el Agente 2 
podria apostar seis dôlares contra cuatro dôlares de que a no ocurrirâ 8 . Si el grado de 
creencia de un agente no refleja acertadamente el mundo, entonces deberia esperar a que 


7 Boletos. El término original inglés es odds. En el contexto de apuestas se entiende por odds a la propor¬ 
tion en que se ofrece pagar una apuesta y que refleja las posibilidades de acierto de la misma. Por ejemplo, 
en una expresiôn como «el apostante esta ofreciendo diez contra uno», el boleto séria «diez contra uno». (Nota 
del traductor. ) 

8 Uno puede argumentai' que las preferencias del agente para saldos diferentes son taies que la posibilidad 
de la pérdida de un dôlar no esta contrarestada a una posibilidad igual para la ganancia de un dôlar. Una po- 
sible respuesta es hacer las cantidades apostadas lo suficientemente pequenas hasta evitar este problema. El 
anâlisis de Savage (1954) salva la cuestiôn totalmente. 
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el agente tienda a perder dinero a lo largo de la ejecucion ante un agente enemigo cu- 
yas creencias reflejan mas fielmente el estado del mundo. 

Pero de Finetti demostrô algo mas fuerte: Si el Agente 1 expresa un conjunto de gra- 
dos de creencia que viola los axiomas de la teon'a de la probabilidad enfonces hay una 
combinaciôn de apuestas para el Agente 2 que garantiza que el Agente 1 perderâ di- 
nero todas las veces. Asi, si acepta la idea de que un agente estaria dispuesto a «poner 
su dinero donde estân sus probabilidades.», enfonces deberfa aceptar que es irracional 
tener creencias que violen los axiomas de la probabilidad. 

Uno pudiera imaginar que este juego de apuestas es mas artificioso. Por ejemplo, / ; qué 
pasa si uno rehusara apostar?, ^eso pone fin a la discusion? La respuesta es que el jue¬ 
go de apuestas es un modelo abstracto para la situacion de toma de decisiones en la que 
cada agente esta inevitablemente involucrado en todo momento. Cada accion (incluyendo 
la inactividad) es un tipo de apuesta, y cada consecuencia puede verse como un pago de 
la apuesta. El rechazo a apostar es como el rechazo a dejar que el tiempo pase. 

No presentaremos la demostracion del teorema de de Finetti, pero mostraremos un 
ejemplo. Suponga que el Agente 1 tiene el conjunto de grados de creencia de la Ecua- 
cion (13.3). La Figura 13.2 muestra que si el Agente 2 elige apostar cuatro dolares so¬ 
bre a, très dolares por b, y dos dolares por -i(uvl)), enfonces el Agente 1 siempre pierde 
dinero, independientemente del resultado final para a y b. 


Agente 1 

Proposiciôn Creencia 

Agente 2 

Apostar a Apuesta 

Consecuencia para el Agente 1 
a /\ b fl a —i b -ia/\b —iaA—ib 

a 0,4 

b 0,3 

a v b 0,8 

fl 4 a 6 

b 3 a 7 

—i (avb) 2a8 

-6-6 4 4 

-7 3-7 3 

2 2 2 -8 



-11 -1 -1 -1 

Figura 13.2 Como el Agente 1 tiene creencias inconsistentes, el Agente 2 es capaz de concebir 
un conjunto de apuestas que garantizan la pérdida para el Agente 1, no importa cuâl sea el resul¬ 
tado de a y b. 


Otros argumentos filosoficos consistentes se han postulado para el uso de probabi¬ 
lidades, destacando los de Cox (1946) y Camap (1950). Sin embargo, estando la vida 
por el camino que esta, las demostraciones prâcticas a veces hablan mas alto que las de- 
mostraciones. El éxito de los sistemas de razonamiento basados en la teoria de la pro¬ 
babilidad ha sido mucho mas efectivo para la generacion de conversos. Ahora veremos 
como los axiomas pueden utilizarse para hacer inferencias. 


13.4 Inferencia usando las distribuciones 
conjuntas totales 


INFERENCIA 

PROBABILISTA 


En esta section describiremos un método simple para inferencia probabilista (es de- 
cir, el câlculo de probabilidades posteriores para proposiciones-pregunta a partir de la 
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PROBABILIDAD 

MARGINAL 


MARGINALIZACIÔN 


evidencia observada. Usaremos la distribucion conjunta compléta como la «base de co- 
nocimiento» desde la que se deducirân las respuestas de todas las preguntas. Durante el 
desarrollo también introduciremos diferentes técnicas ütiles para la manipulaciôn de ecua- 
ciones que involucren probabilidades. 

Comenzamos con un ejemplo muy sencillo: un dominio consta exactamente de très 
variables booleanas Dolor-de-muelas, Caries e Infectarse (la sonda sucia de acero del 
dentista me infecto los dientes). La distribucion conjunta compléta es una tabla de di¬ 
mension 2X2X2 como se muestra en la Figura 13.3. 



dolor-de-muelas 

—i dolor-de-muelas 


infectarse 

—i infectarse 

infectarse 

-i infectarse 

caries 

0,108 

0,012 

0,072 

0,008 

—i caries 

0,016 

0,064 

0,144 

0,576 

Figura 13.3 Una distribucion conjunta compléta para el mundo Dolor-de-muelas, Caries e 
Infectarse 


Nôtese que las probabilidades de la distribucion conjunta suman 1, como se requiè¬ 
re por los axiomas de la probabilidad. Nôtese también que la Ecuaciôn (13.2) nos da un 
modo directo para calcular la probabilidad de cualquier proposicion, simple o comple- 
ja: simplemente identificamos aquellos sucesos atômicos en los que la proposicion es 
cierta y sumamos sus probabilidades. Por ejemplo, hay seis sucesos atômicos en los que 
se verifica caries v dolor-de-muelas : 

P {carie s v dolor-de-muelas) = 0,108 + 0,012 + 0,072 + 0,008 + 0,016 + 0,064 

= 0,28 

Una operaciôn particular muy comün es obtener la distribucion definida sobre algün sub- 
conjunto de variables o una sola variable. Por ejemplo, sumando las entradas de la pri¬ 
mera fila se obtiene la probabilidad marginal 9 o incondicional de caries : 

P(caries ) = 0,108 + 0,012 + 0,072 + 0,008 = 0,2 

Este proceso es conocido como marginalizaciôn, o sumatoria de eliminaciôn, porque 
las variables diferentes a Caries son sumadas para eliminarlas. Podemos escribir la si- 
guiente régla de marginalizaciôn general para cualquier conjunto de variables Y y Z: 

P(Y) = S P(Y, z) (13.4) 

z 

Es decir, una distribucion sobre Y puede obtenerse a partir de cualquier distribucion con¬ 
junta que la contenga sumando en todas las demâs variables. Una variante de esta régla 
involucra probabilidades condicionales en vez de probabilidades conjuntas usando la ré¬ 
gla del producto: 

P(Y) = V P(Y|z)P(z) (13.5) 


9 Asi llamada debido a una prâctica comün entre los actuarios de escribir las sumas de las frecuencias ob- 
servadas en el margen de las tablas de seguros. 
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CONDICIONAMIENTO 


NORMALIZACIÔN 


Esta régla se conoce como condicionamiento. La marginalizaciôn y el condiciona- 
miento entrarân en acciôn como réglas ütiles para todo tipo de deducciones que inclu- 
yan expresiones probabilistas. 

En la mayoria de los casos, estaremos interesados en el câlculo de probabilidades 
condicionales de algunas variables, dada la evidencia sobre otras. Las probabilidades con- 
dicionales pueden hallarse usando primero la Ecuaciôn (13.1) para obtener una expre- 
siôn en términos de probabilidades incondicionales y enfonces calcular la expresiôn a 
partir de la distribucion conjunta compléta. Por ejemplo, podemos calcular la probabi- 
lidad de una caries, dada la evidencia de dolor de muelas, como sigue: 

, , P {caries a dolor-de-muelas) 

P {canes\dolor-de-muelas) =- 

P {dolor-de-muelas) 

0,108 +0,012 

_ ___'_ _ A Z 

“ 0,108 + 0,012 + 0,016 + 0,064 ~~ ’ 

Para verificarlo, calculamos también la probabilidad de que no hay caries, dado un do¬ 
lor de muelas: 

, , P{ — iCavies a dolor-de-muelas) 

P {—\canes\dolor-de-muelas) = - 

P {dolor-de-muelas) 

_ _ 0,016 +0,064 _ _ 

~~ 0,108 + 0,012 + 0,016 + 0,064 ~~ 0,4 

Notese que en estos dos câlculos el término 1 / P {dolor-de-muelas) permanece constan¬ 
te, sin importar qué valor de Caries calculamos. De hecho, puede verse como una cons¬ 
tante de normalizaciôn para la distribucion P{Caries\dolor-de-muelas), asegurando 
que la suma total darâ 1. En todos los capitulos que traten con probabilidades, usaremos 
a para denotar esas constantes. Con esta notaciôn, podemos escribir las dos ecuaciones 
previas en una: 

P{Caries/dolor-de-muelas) = a P{Caries, dolor-de-muelas) 

= a [P {Caries, dolor-de-muelas, infectarse) + 

P{Caries, dolor-de-muelas, —i infectarse )] 

= a [(0,108, 0,016) + (0,012, 0,064)] = a (0,12, 0,08) = (0,6, 0,4). 

La normalizaciôn funciona como un atajo ütil en muchos câlculos probabilistas. 

Del ejemplo, podemos extraer un procedimiento de inferencia general. Seguiremos 
por el caso en el que la pregunta abarca a una sola variable. Necesitaremos alguna no- 
taciôn: sca X la variable pregunta {Caries en el ejemplo), sea E el conjunto de variables 
evidencia (como Dolor-de-muelas en el ejemplo), sea e sus valores observados, y sea Y 
las variables no observadas restantes (como Infectarse en el ejemplo). La pregunta es 
P(X|e) y puede evaluarse como 

P{X\e) = a P{X, e) = a S P(X, e, y), (13.6) 

y 

donde la sumatoria es sobre todas las posibles ys (es decir, todas la combinaciones de va¬ 
lores posibles de las variables no observadas Y). Notese que el agrupamiento de las va¬ 
riables Y, E, e Y constituyen el conjunto completo de variables para el dominio, asi P(X, 
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e, y) es simplemente un subconjunto de probabilidades de la distribucion conjunta com¬ 
pléta. El algoritmo se muestra en la Figura 13.4. El ciclo sobre los valores de Z y los va- 
lores de Y es para contar todos los posibles sucesos atomico con e fijo, se suman todas sus 
probabilidades de la tabla conjunta, y se normalizan los resultados. 


funciôn Preguntar-Contar-Conjunta (X, e, P) retorna una distribucion sobre X 
entradas: X , la variable pregunta 

e, los valores observados de las variables E 

P, una distribucion conjunta sobre las variables |Z) U E U Y 

/ * Y = variables ocultas * / 

Q(X) <— una distribucion sobre X, inicialmente esta vacia 
para cada valor x, de X hacer 

Q(x,) <— Contar-Conjunta(x,., e, Y, [ ], P) 
retorna Normalizar (Q(X)) 


funciôn Contar-Conjunta(x, e, vars, valores , P) retorna un numéro real 
si VACioKvars) entonces retorna P(x, e, valores) 

Y <— PRIMERO(tOTs) 

retorna £ Contar-Conjunta(jc, e, RESTo(var.y), [>j valores], P) 


Figura 13.4 Un algoritmo para inferencia probabilista basada en contar las entradas de una sis- 
tribucion conjunta compléta. 


Dada la distribucion conjunta compléta con la que operar, Preguntar-Contar- 
Conjunta es un algoritmo completo para la respuesta de preguntas probabilistas con va¬ 
riables discretas. Sin embargo, no se puede generalizar bien: para un dominio representado 
por n variables booleanas, requiere una tabla de entrada de tarnano 0(2") y necesita un 
tiempo de orden 0(2") para procesar la tabla. En un problema realista, estariamos 
considerando cientos o miles de variables, y no solo très. Enseguida se hace completa- 
mente impracticable définir el enorme numéro de probabilidades que se requieren (la ex- 
periencia necesaria para estimar por separado cada una de las entradas de la tabla 
sencillamente no puede existir). 

Por estas razones, la distribucion conjunta compléta en forma de tabla no es una he- 
rramienta prâctica para la constmccion de sistemas de razonamiento (aunque las notas his- 
toricas del final del capitulo incluyen una aplicacion del mundo real con este método). Mas 
bien debe verse como el fundamento teôrico con el que pueden construire aproximacio- 
nes mas efectivas. El resto de este capitulo introduce algunas de las ideas bâsicas necesa- 
rias como los preparativos para el desarrollo de sistemas realistas en el Capitulo 14. 


13.5 Independencia 


Extendamos la distribucion conjunta compléta de la Figura 13.3 anadiendo una cuarta 
variable, Tiempo. La distribucion conjunta compléta entonces se convierte en P (Dolor- 
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de-muelas, Infectarse, Caries, Tiempo), que tiene 32 entradas (ya que Tiempo tiene cua- 
tro valores). Esta formada por cuatro «ediciones» de la tabla que se muestra en la Figu¬ 
ra 13.3, una por cada tipo de tiempo. Parece natural preguntar cômo se relaciona cada 
una de estas ediciones con las otras y con la tabla original de très variables. Por ejem- 
plo, £como estân relacionados P{dolor-de-muelas, infectarse, caries, Tiempo = nubla- 
do) y P(dolor-de-muelas, infectarse, caries )? Un modo de responder a esta pregunta es 
usar la régla del producto: 

P {dolor-de-muelas, infectarse, caries, Tiempo = nublado) 

= PÇTiempo = nublado\ dolor-de-muelas, infectarse, caries) 

P{dolor-de-muelas, infectarse, caries) 

Ahora, a menos que sea un dios, no deberia imaginar que los problemas dentales de uno 
influyen en el tiempo. Asi, la siguiente oraciôn parece razonable: 

PÇTiempo = nublado\dolor-de-muelas, infectarse, caries) = PÇTiempo = nublado) (13.7) 

De aqui, podemos deducir que 

P {dolor-de-muelas, infectarse, caries, Tiempo = nublado) 

= PÇTiempo = nublado) P{dolor-de-muelas, infectarse, caries) 

Una ecuacion similar existe para cada entrada de P {Dolor-de-muelas, Infectarse, Ca¬ 
ries, Tiempo). De hecho, podemos escribir la ecuacion general: 

ViDolor-de-muelas, Infectarse, Caries, Tiempo) 

= P( Dolor-de-muelas, Infectarse, Caries) PÇTiempo) 

Asi, la tabla de 32 elementos para cuatro variables puede constmirse a partir de una ta¬ 
bla de ocho elementos y una tabla de cuatro elementos. Esta descomposicion se ilustra 
esquemâticamente en la Figura 13.5(a). 


Caries 

Dolor-de-muelas Infectarse 
Tiempo 


se descompone 


4 



Caries 
Dolor-de muelas 
Infectarse 

(a) 



Tiempo 



Moneda l . Moneda 



se descompone 


en 


4 



(Moneda A . (Moneda n 


(b) 


Figura 13.5 Dos ejemplos de factorizaciôn de una distribucion conjunta grande en distribucio- 
nes mas pequenas usando la independencia absoluta. (a) Los problemas del tiempo y dentales son 
independientes. (b) Los lanzamientos de las monedas son independientes. 
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INDEPENDENCIA 


13.6 


REGLA DE BAYES 


La propiedad que usamos en la Ecuaciôn (13.7) se llama independencia (también 
llamada independencia marginal e independencia absoluta). En particular, el tiem- 
po es independiente de los problemas dentales de uno. La independencia entre las pro- 
posiciones a y b pueden escribirse como: 

P{a\b)=P(a) o P(b\a) = P(b) o P(a a b) = P{a)P{b) (13.8) 

Todas estas formulas son équivalentes (Ejercicio 13.7). La independencia entre las va¬ 
riables XeY puede escribirse como sigue (de nuevo, todas éstas son équivalentes): 

P(X|L) = P(X) o P(îjX) = P(F) o P(A, Y) = P(X)P(L) 

Las afirmaciones de independencia estân basadas usualmente en el conocimien- 
to del dominio. Como hemos visto, pueden reducir drâsticamente la cantidad de in- 
formaciôn necesaria para especificar la distribucion conjunta compléta. Si el conjunto 
completo de variables puede dividirse en subconjuntos independientes, enfonces la con¬ 
junta compléta puede ser factorizada en distribuciones conjuntas separadas sobre 
esos subconjuntos. Por ejemplo, la distribucion conjunta del resultado de n lanza- 
mientos de moneda independientes, P(Cj..., C„), puede representarse como el producto 
de n distribuciones de una sola variable P(C ; ). En una linea mas prâctica, la indepen¬ 
dencia de la odontologia y la meteorologia es un buen hecho, ya que de otro modo la 
prâctica de la odontologia requeriria un conocimiento profundo de la meteorologia y 
viceversa. 

Asi, cuando estân disponibles, enfonces, las afirmaciones de independencia, nos pue¬ 
den ayudar para la réduction del tamano de la representaciôn del dominio y la comple- 
jidad del problema de inferencia. Desafortunadamente, la séparation nitida de conjuntos 
enteros de variables por independencia es bastante rara. Siempre que exista una cone- 
xiôn entre dos variables, aunque sea indirecta, la independencia no se verificarâ. Ade- 
mâs, incluso subconjuntos independientes pueden ser bastantes grandes, por ejemplo, 
la odontologia cubre docenas de enfeimedades y cientos de sintomas, todos ellos inte- 
rrelacionados. Para manejar taies problemas, necesitaremos mâs métodos ingeniosos que 
el concepto simple de independencia. 


La régla de Bayes y su uso 


En el Aparatado 13.2, definimos la régla del producto y senalamos que puede escri¬ 
birse de dos formas por la conmutatividad de la conjunciôn: 

P(aAb) =P(a\b)P(b ) 

P(ctAb) =P(b\a)P(a ) 


Igualando los miembros derechos y dividiendo por P (a), obtenemos 


P(b\a) 


P{a\b)P{b) 

P(a) 


(13.9) 


Esta ecuaciôn se conoce como régla de Bayes (también como ley de Bayes o teorema 
de Bayes). Esta ecuaciôn sencilla subyace en todos los sistemas de IA modemos con in- 
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ferencia probabilfstica. El caso mas general para variables multivaluadas puede escri- 
birse con la notaciôn P como 

P(X|7)P(y) 

TO 

donde de nuevo se interpréta como la representaciôn de un conjunto de ecuaciones, y 
cada relaciôn con valores especificos de las variables. También tendremos ocasiôn de 
usar una version mas general, condicionada a alguna evidencia base e. 



P(Y\X, e) 


P(X\Y, e)P(7|e) 
P(X|e) 


(13.10) 


Aplicaciôn de la régla de Bayes: el caso sencillo 

A primera vista, la régla de Bayes no parece muy ütil. Requiere très términos (una pro- 
babilidad condicional y dos probabilidades incondicionales) solo para calcular una pro- 
babilidad. 

La régla de Bayes es ütil en la prâctica porque hay muchos casos donde disponemos 
de buenas estimaciones probabilistas para estos très nümeros y necesitamos calcular el 
cuarto. En una tarea como el diagnôstico médico, con frecuencia tenemos probabilida¬ 
des condicionales de relaciones causales y necesitamos deducir una diagnôstico. Un mé¬ 
dico sabe que la enfermedad de meningitis causa al paciente que el cuello se agarrote, 
digamos, el 50 por ciento de las veces. El médico también conoce algunos hechos in- 
condicionados: la probabilidad a priori de que un paciente tenga meningitis es 1/50.000 
y la probabilidad priori de que cualquier paciente tenga un cuello agarrotado es 1/20. Si 
tomamos s como la proposiciôn de que el paciente tiene un cuello agarrotado y m como 
la proposiciôn de que el paciente tiene meningitis, tenemos 

P{s\m) = 0,5 
P(m) = 1/50.000 

P(s) = 1/20 0 5 x i / 50 .OOO 

P{m\s) = P(s\m)P{m)XP(s) = —-^-= 0,0002 

Es decir, esperamos que solo un paciente de entre 5.000 con un cuello agarrotado ten¬ 
ga meningitis. Nôtese que, aun pensando en que una meningitis apunta a un cuello aga¬ 
rrotado con bastante contundencia (con probabilidad 0,5), la probabilidad de meningitis 
en el paciente se queda pequena. Esto es porque la probabilidad a priori de un cuello aga¬ 
rrotado es mucho mas alta que la de meningitis. 

La Secciôn 13.4 ilustrô un proceso por el que se puede evitar la asignaciôn de pro¬ 
babilidades de la evidencia (aqui, P(s)) consistente en el câlculo de la probabilidad a pos¬ 
teriori para cada variable de la variable pregunta (aqui, m y — ,m) y enfonces normalizar 
el resultado. El mismo proceso puede aplicarse en la régla de Bayes. Tenemos 

P(M|s) = a (P(s\m)P(m), P(s\-nm)P(—im)) 

Asi, para usar esta aproximaciôn necesitamos estimar P(s\—im) en vez de P (s). A veces es 
mas fâcil, a veces es mas dificil. La formula general de la régla de Bayes con normaliza- 
ciôn es 


P(7|X) = a P(A|T)P(T), 


(13.11) 
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donde a es la constante de normalizaciôn necesaria para hacer que las entradas de 
P(ljX) sumen 1. 

Una cuestiôn obvia sobre la régla de Bayes es por qué uno debe disponer de la pro- 
babilidad condicional en un sentido, pero no en el otro. En el dominio de la meningi- 
tis, quizâs el médico sabe que un cuello agarrotado implica meningitis en uno de cada 
5.000 casos; es decir, el médico tiene informaciôn cuantitativa en el sentido de los sin- 
tomas a las causas, el sentido diagnôstico. Tal médico no tiene necesidad de usar la ré¬ 
gla de Bayes. Desafortunadamente, el conocimiento diagnôstico es confrecuencia mâs 
frâgil que el conocimiento causal. Si hay una epidemia repentina de meningitis, la pro- 
babilidad incondicional de meningitis, P(m), aumentarâ. El médico que obtuvo la 
probabilidad diagnôstica P(m\s ) directamente de la observaciôn estadistica de pa- 
cientes antes de la epidemia no tendra ni idea de cômo actualizar el valor, pero el mé¬ 
dico que calcula P(m\s) a partir de los otros très valores verâ que P(m\s) aumentarâ 
proporcionalmente a P(m). Lo que es mâs importante, la informaciôn causal P(s\m) 
no se ve afectada por la epidemia, ya que sencillamente refleja el modo en que actüa 
la meningitis. El uso de este tipo de conocimiento causal directo o basado en mode- 
los proporciona la robustez decisiva necesaria que hace viables a los sistemas proba- 
bilistas en el mundo real. 


Utilizaciôn de la régla de Bayes: combinaciôn 
de evidencia 

Hemos visto que la régla de Bayes puede ser un elemento de evidencia ütil para la con- 
testaciôn de preguntas probabilistas condicionales (por ejemplo, el cuello agarrotado). 
En particular, hemos argumentado que la informaciôn probabilista estâ muchas veces dis¬ 
ponible de la forma P{efecto\causa). / ; Qué oc une cuando tenemos dos o mâs elementos 
de evidencia? Por ejemplo, ^qué puede concluir una dentista si su sonda sucia de acero 
infecta los dientes dolorosos de un paciente? Si conocemos la distribuciôn conjunta com¬ 
pléta (Figura 13.3), uno puede leer la respuesta: 

V(Caries\dolor-de-muelas a infectarse ) = a (0,108, 0,016) ~ (0,871, 0,129) 

Sabemos, sin embargo, que tal metodologia no es ampliable a un nümero mâs amplio 
de variables. 

Podemos intentar la utilizaciôn de la régla de Bayes para reformular el problema: 

V(Caries\dolor-de-muelas a infectarse) 

= aP(dolor-de-muelas a infectarse\Caries)V(Caries) 

Para que esta reformulaciôn funcione, necesitamos conocer las probabilidades condi¬ 
cionales de la conjunciôn dolor-de-muelas a infectarse para cada valor de Caries. Esto 
podria ser factible para solo dos variables de evidencia, pero de nuevo no serâ amplia¬ 
ble. Si hay n posibles variables de evidencia (rayos X, dieta, higiene bucal, etc.), enfonces 
hay 2" posibles combinaciones de valores observados para los que necesitariamos co¬ 
nocer las probabilidades condicionales. Podriamos también volver a utilizar la distribu¬ 
ciôn conjunta compléta. Esto es lo que primera condujo a los investigadores apartados 
de la teoria de la probabilidad hacia métodos aproximados para la combinaciôn de evi- 
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dencia que, mientras daban respuestas errôneas, requieren pocos nümeros para dar cual- 
quier respuesta a todo. 

Mejor que tomar este camino, necesitamos encontrar algunas afirmaciones adicio- 
nales sobre el dominio que nos permitirâ simplificar las expresiones. La nociôn de in- 
dependencia de la Seccion 13.5 proporciona una pista, pero necesita refinarse. Séria 
precioso si Dolor-de-muelas e Infectarse fueran independientes, pero no lo son: si la son¬ 
da infecta la muela, probablemente tiene una caries y eso probablemente causa un do- 
lor de muelas. Sin embargo, estas variables son independientes dada la presencia o la 
ausencia de caries. Cada una esta directamente causada por la caries, pero ninguna de 
ellas tiene un efecto directo sobre la otra: el dolor de muelas dépende del estado de los 
nervios de la muela, mientras que la précision de la sonda dépende de la habilidad del 
dentista, para la cual es irrelevante el dolor de muelas 10 . Matemâticamente, esta propie - 
dad se escribe como 


INDEPENDENCIA 

CONDICIONAL 


P (dolor-de-muelas a infectarse \Caries) ^ 

= P(dolor-de-muelas\Caries) P(infectarse\Caries) 

Esta ecuaciôn expresa la independencia condicional de dolor-de-muelas e infectarse 
dada la Caries. Podemos sustituirla en la Ecuaciôn (13.12) para obtener la probabilidad 
de una caries: 


P{Caries\dolor-de-muelas a infectarse) 

= aP(dolor-de-muelas\Caries) P(infectarse\Caries)P(Caries). 

Ahora los requerimientos de informaciôn son los mismos que para la inferencia que uti- 
liza cada elemento de evidencia por separado: la probabilidad a priori P {Caries) para 
la variable-pregunta y la probabilidad condicional de cada efecto, dada su causa. 

La definiciôn general de independencia condicional de dos variables X e Y, dada una 
tercera variable Z es 

P(X, Y\Z) = P(X\Z)P(Y\Z) 

En el dominio odontôlogo, por ejemplo, parece razonable imponer independencia con¬ 
dicional a las variables Dolor-de-muelas e Infectarse , dada Caries : 

P(Dolor-de-muelas, Infectarse\Caries) ^ 

= P(Dolor-de-muelas\Caries) P{Infectarse\Caries) 

Nôtese que esta afirmaciôn es un poco mas extrada que la Ecuaciôn (13.13), que afirma 
independencia solo para valores especificos de Dolor-de-muelas e Infectarse. Como con 
la independencia absoluta de la Ecuaciôn (13.8), las formulas équivalentes 

P(X|7, Z) = P{X\Z) y P(L|X, Z) = P(L|Z) 

pueden también utilizarse. 

La Seccion 13.5 mostrô que las afirmaciones de independencia absoluta permiten 
una descomposiciôn de la distribuciôn conjunta compléta en elementos mucho mas pe- 
quenos. Résulta que lo mismo es cierto para afirmaciones de independencia condicio- 


10 Asumimos que el paciente y el dentista son individuos distintos. 
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nal. Por ejemplo, dada la afirmacion de la Ecuacion (13.14), podemos deducir una des- 
composiciôn como sigue: 

¥{Dolor-de-muelas, Infectarse, Caries) 

= ViDol or-de-mue la s, Infectarse/ Caries)P(Caries) (régla del producto) 

= P(E)olor-de-muelas\Caries)P(Infectarse, Caries)P(Caries) [usando (13.14)]. 



SEPARACION 


SIMPLE-BAYES 


IDIOTA-BAYES 


De este modo, la tabla grande original se descompone en très tablas mas pequenas. La 
tabla original tiene siete nümeros independientes (2 3 — 1, ya que los nümeros deben su- 
mar 1). Las tablas mas pequenas contienen cinco nümeros independientes (2 X (2 — 1) 
para cada distribucion de probabilidad condicional y 2 1 — 1 para la a priori sobre Caries). 
Esto podria parecer que no es un éxito importante, pero el proposito es que, para n sîn- 
tomas que son todos independientes condicionalmente dada Caries, el tamano de la 
representacion crece en orden O(ii) en vez de 0(Z"). Asi, las declaraciones de inde- 
pendencia condicional permiten aumentar los sistemas probabilistas; mâs aûn, aque- 
llas estân normalmente mucho mâs disponibles que las declaraciones de independencia 
absoluta. Conceptualmente, Caries sépara Dolor-de-muelas e Infectarse porque es una 
causa directa de las dos. La descomposiciôn de grandes dominios probabilistas en sub- 
conjuntos conectados débilmente via independencia condicional es uno de los mâs im¬ 
portantes desarrollos en la reciente historia de la IA. 

El ejemplo odontologo ilustra un patron de ocurrencia comün en el que una sola cau¬ 
sa influye directamente en un nümero de efectos, todos ellos independientes condicio¬ 
nalmente, dada la causa. La distribucion conjunta compléta puede escribirse como: 

PiCausa, Efecto v .., Efectof = P(Causa)X\P(Efecto\Causa) 

i 

Tal distribucion de probabilidad se llama modelo simple-Bayes «simple» porque es 
usado a menudo (como un supuesto simplificado) en casos donde las variables «efec- 
to» no son independientes condicionalmente dada la variable causa. (El modelo sim¬ 
ple-Bayes es a veces denominado un clasificador Bayesiano, uso un tanto descuidado 
que ha incitado a los bayesianos verdaderos a llamarlo el modelo idiota-Bayes.) En 
la prâctica, los sistemas simples-Bayes pueden trabajar sorprendentemente bien, in- 
cluso cuando los supuestos de independencia no son ciertos. El Capitulo 20 describe 
métodos para el aprendizaje de las distribuciones de un simple-Bayes a partir de las 
observaciones. 


13.7 El mundo wumpus revisado 


Podemos combinar muchas de las ideas de este capitulo para resolver problemas de ra- 
zonamiento probabilista en el mundo wumpus. (Véase Capitulo 7 para una descripciôn 
compléta del mundo wumpus.) La incertidumbre aparece en el mundo wumpus porque 
los sensores del agente dan solo informacion parcial y local del mundo. Por ejemplo, la 
Figura 13.6 muestra una situacion en la que cada uno de los cuadrados alcanzables ([1,3], 
[2,2] y [3,1]) podrian contener unpozo. Lainferencia lôgicapura no puede concluir nada 
sobre qué cuadrado es mâs probablemente seguro, asi un agente logico podria estar for- 
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Figura 13.6 (a) Después de encontrar brisa tanto en [1,2] como en [2,1], el agente esta atascado, 

no hay un lugar seguro que explorar. (b) Division de los cuadrados en Conocido, Borde, y Otros, 
para una pregunta sobre [1,3]. 


zado a elegir aleatoriamente. Veremos que un agente probabilista puede hacerlo mucho 
mejor que un agente logico. 

Nuestra meta sera calcular la probabilidad de que cada uno de los très cuadrados 
tenga un pozo. (Para los propositos de este ejemplo, ignoraremos al wumpus y al oro.) 
Las propiedades relevantes del mundo wumpus son que (1) un pozo causa brisas en to- 
dos los cuadrados vecinos, y (2) cada cuadrado distinto del [1,1] contiene un pozo con 
probabilidad 0,2. El primer paso es identificar el conjunto de variables aleatorias que 
necesitamos: 


• Como en el caso logico proposicional, queremos una variables booleana P para 
cada cuadrado que sera cierto si y solo si el cuadrado [ij] contiene un pozo. 

• También tenemos las variables B tj que son ciertas si y solo si el cuadrado [/, j] esta 
ventoso; incluimos estas variables solo para los cuadrados observados, en este caso, 
[1,1], [1,2], y [2,1], 


El siguiente paso es especificar la distribucion conjunta compléta, P(P, ,_P 44 , B 1 ,, 5, 2 , 

B 2 , ), Aplicando la régla del producto, tenemos: 


P(Pj i..., P 44 , B j p B l 2 , B 21 ) PCfiij, B 12 , B 2 l | P lv P 44 )P(Pj,, , P 44 ) 


Esta descomposicion hace muy fâcil ver cuâles deberfan ser los valores de la probabili¬ 
dad conjunta. El primer término es la probabilidad condicional de una configuracion de 
brisas, dada una configuracion de pozos; éste es 1 si las brisas son adyacentes a los po- 
zos y 0 en otro caso. El segundo término es la probabilidad a priori de una configuracion 
de pozos. Cada cuadrado contiene un pozo con probabilidad 0,2, independientemente de 
los otros cuadrados; asi, 44 


P(A,i 


;P 44 ) = n P(P,y) 

0 = 1,1 


(13.15) 
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Para una configuracion con n pozos, ésta es exactamente 0,2" X 0,8 lfi " ". 

En la situacion de la Figura 13.6(a), la evidencia consiste en la brisa observada (o 
su ausencia) en cada cuadrado que es visitado, combinada con el hecho de que cada uno 
de taies cuadrados no contiene pozo. Abreviaremos estos hechos como b = —\b ll Ab l2 
a b 2 j y conocido = —>p 1 j a —,p 12 a —i p 2 ,. Estamos interesados en responder a pregun- 
tas del tipo P(P l3 \conocido, b): /como de probable es que [1,3] contenga un pozo, da¬ 
das las observaciones que se tienen hasta ahora? 

Para responder a esta pregunta, podemos seguir la aproximacion estândar propuesta 
por laEcuaciôn (13.6) e implementada en Preguntar-Contar-Conjunta, a saber, sumar 
las entradas de la distribuciôn conjunta compléta. Sea Desconocido una variable compuesta 
formada por las variables P ; . de los cuadrados que no son ni de los cuadrados de Cono¬ 
cido ni del cuadrado pregunta [1,3]. Enfonces, por la Ecuacion (13.6), tenemos 

P(P, 3 | conocido, b) — a X P(P, 3 , desconocido, conocido, b) 

desconocido 

Las probabilidades conjuntas complétas ya han sido especificadas, es decir, a no ser que 
nos preocupemos por el cômputo. Hay 12 cuadrados desconocidos; asi, la sumatoria con¬ 
tiene 2 12 = 4.096 términos. En general, la sumatoria crece exponencialmente con el nu¬ 
méro de cuadrados. 

La intuicion sugiere que aqui estamos fallando en algo. Sin duda uno podrfa preguntar, 
/no son los otros cuadrados irrelevantes? ;Los contenidos de [4,4] no afectan si [1,3] tie- 
ne un pozo! Efectivamente, esta intuicion es correcta. Sea Borde las variables (distintas 
a la variable pregunta) que son adyacentes a los cuadrados visitados, en este caso son 
[2,2] y [3,1]. Ademâs, sea Otros las variables de los demâs cuadrados desconocidos; en 
este caso, hay otros 10 cuadrados desconocidos, como se muestran en la Figura 13.6(b). 
La comprensiôn crucial es que las brisas observadas son indépendantes condicionalmente 
de las otras variables, dado lo conocido, el borde, y las variables pregunta. El resto es, 
como suele decirse, una cosa pequena de âlgebra. 

Para usar la sutileza, manipulamos la formula pregunta en un formata en el que las 
brisas estân condicionadas a todas las otras variables, y enfonces simplificamos usando 
independencia condicional: 

P (P j 3 \conocido, b) 

= a X P(6|P, 3 , conocido, desconocido)P(P } 3 , conocido, desconocido ) 

desconocido 

(por la régla del producto) 

= a V X P(b\conocido, P l 3 , borde, otros)P(P 13 , conocido, borde, otros ) 

borde otros 

= a V Y P(b\conocido, P 13 , borde)P(P 1 3 , conocido, borde, otros), 

borde otros 

donde el paso final usa independencia condicional. Ahora, el primer término en esta ex- 
presiôn no dépende de las otras variables, asi que podemos mover la sumatoria al in¬ 
ter ior: 

P {P 13 /conocido, b) 

= a X ( b\conocido, P 13 , borde) X P(P L3 , conocido, borde, otros) 

borde otros 
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Por independencia, como en la Ecuacion (13.15), el término a priori puede factorizar- 
se, y enfonces los términos se pueden reordenar: 

P(Pj 3 | conocido, b) 

= a X P(b\conocido, P 13 , borde) X P(P, 3 )P(conocido)P(borde)P(otros) 

borde otros 

= a P(conocido)P(P l 3 ) X P(b\conocido, P 13 , borde)P(borde) X P {otros) 

borde otros 

= a'P(P 13 ) X P(b\conocido, P t 3 , borde)P(borde), 

borde 

donde el ültimo paso incorpora P{conocido) en la constante de normalizacion y usa el 
hecho de que X P(otros) es igual a 1. 

Ahora, hay exactamente cuatro términos en la sumatoria sobre las variables del bor- 
de P, t y P 3 ,. El uso de la independencia y de la independencia condicional ha elimi- 
nado completamente a los otros cuadrados de la estimacion. Notese que la expresiôn 
P{b\conocido, P l 3 , borde) es 1 cuando el borde es consistente con las observaciones 
de la brisa y 0 en otro caso. Asf, para cada valor de P, 3 sumamos los modelos lôgicos 
para las variables del borde que son consistentes con los hechos conocidos. (Compa- 
rar con la enumeracion de los modelos en la Figura 7.5.) Los modelos y sus probabi- 
lidades a priori asociadas — P (borde) — se muestran en la Figura 13.7. Tenemos 

P(P 13 \conocido, b) = «'(0,2(0,04 + 0,16 + 0,16), 0,8(0,04 + 0,16)) « (0,31, 0,69) 

Esto es, [1,3] (y [3,1] por simetrfa) contiene un pozo con aproximadamente una proba- 
bilidad del 31 por ciento. Un câlculo similar, que al lector le deberia apetecer desarro- 
llar, muestra que [2,2] contiene un pozo con una probabilidad aproximada del 86 por 
ciento. ;E1 agente wumpus deberia definitivamente evitar [2,2]! 

Lo que esta seccion ha presentado es que hasta problemas aparentemente compli- 
cados pueden formularse con précision en la teoria de la probabilidad y resolverse con 
algoritmos sencillos. Para conseguir soluciones eficientes, pueden utilizarse las rela- 
ciones de independencia y de independencia condicional para simplificar las sumato- 
rias que se necesitan. Estas relaciones a menudo corresponden a nuestro entendimiento 
natural de como el problema deberia estar descompuesto. En el capitulo siguiente, des- 
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Figura 13.7 Modelos consistentes para las variables del borde P 22 y P 3 j, presentando P(borde) 
para cada modelo: (a) très modelos con P l 3 = cierto mostrando dos o très pozos, y (b) dos mode¬ 
los con /( 3 = falso mostrando uno o dos pozos. 
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arrollaremos representaciones formales para taies relaciones asf como algoritmos que 
funcionan con esas representaciones para realizar eficientemente la inferencia proba- 
bilista. 


13.8 Resumen 


Este capftulo ha argumentado que la probabilidad es el modo correcto para razonar con 
incertidumbre. 

• La incertidumbre aparece ya sea por pereza como por ignorancia. Es ineludible en 
mundos complejos, dinâmicos, o inabordables. 

• La incertidumbre significa que muchas de las simplifieaciones que son posibles 
con inferencia deductiva no son validas. 

• Las probabilidades expresan la incompetencia del agente para alcanzar una deci¬ 
sion definitiva respecto a la verdad de una oraciôn. Las probabilidades resumen 
las creencias del agente. 

• Las oraciones probabilistas bâsicas incluyen probabilidades a priori y probabi¬ 
lidades condicionales sobre proposiciones simples y complejas. 

• La distribuciôn de probabilidad conjunta compléta especifica la probabilidad 
de cada asignaciôn de valores a todas las variables aleatorias. Usualmente es de- 
masiado grande para crearla o usarla en su forma explicita. 

• Los axiomas de la probabilidad restringen las posibles asignaciones de probabili¬ 
dad a las proposiciones. Un agente que viole los axiomas se comportarâ irracio- 
nalmente en alguna situaciôn. 

• Cuando la distribuciôn conjunta compléta esta disponible, puede usarse para res- 
ponder a preguntas simplemente sumando las entradas de los sucesos atômicos que 
correspondan a las proposiciones de la pregunta. 

• La independencia absoluta entre subconjuntos de variables aleatorias puede per- 
mitir que la distribuciôn conjunta compléta sea factorizada en distribuciones con- 
juntas mas pequenas. Esto podria reducir enormemente la complejidad, pero rara 
vez ocurre en la prâctica. 

• La régla de Bayes permite calcular probabilidades desconocidas a partir de pro¬ 
babilidades condicionales, usualmente en el sentido causal. La aplicaciôn de la régla 
de Bayes con muchos elementos de evidencia tropezarâ en general con los mis- 
mos problemas de generalizaciôn que los de la distribuciôn conjunta compléta. 

• La independencia condicional ocasionada por relaciones causales directas en el 
dominio puede permitir factorizar la distribuciôn conjunta compléta en distribu¬ 
ciones condicionales mas pequenas. El modelo simple-Bayes supone la indepen¬ 
dencia condicional de todos las variables de los efectos, dada una sola variable 
causa, y crece linealmente con el nümero de efectos. 

• Un agente del mundo-wumpus puede calcular probabilidades de aspectos no ob- 
servados del mundo y los usa para tomar mejores decisiones que las que hace un 
agente puramente lôgico. 
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Notas bibliogrâficas e histôricas 

Aunque los juegos de azar datan por lo menos en torno al 300 a.c., el anâlisis matemâ- 
tico de boletos y probabilidades es mucho mas reciente. Algunos trabajos realizados por 
Mahaviracarya en la India estân fechados aproximadamente por el siglo ix d.c. En Eu- 
ropa, los primeros intentos datan solo del Renacimiento Italiano, alrededor de 1500 d.c. 
Los primeros anâlisis sistemâticos significativos los hizo Girolamo Cardano alrededor 
de 1565, pero se quedaron sin publicar hasta 1663. Por ese tiempo, el descubrimiento 
por Biaise Pascal (en correo con Pierre Fermât en 1654) de un modo sistemâtico de cal- 
cular probabilidades asento por primera vez a las probabilidades como una disciplina ma- 
temâtica. El primer libro publicado sobre probabilidades fue De Ratiociniis in Ludo Aleae 
(Huygens, 1657). Pascal también introdujo las probabilidades condicionales, que se tra- 
taron en el libro de Huygens. El reverendo Thomas Bayes (1702-1761) introdujo la ré¬ 
gla para el razonamiento con probabilidades condicionales que fue llamada como él en 
su honor. Fue publicada postumamente (Bayes, 1763). Kolmogorov (1950, primero pu¬ 
blicado en Alemania en 1933) présenté por primera vez la teoria de la probabilidad en 
un marco de trabajo rigurosamente axiomâtico. Rényi (1970) mas tarde dio una pre- 
sentacion axiomâtica que tomaba la probabilidad condicional como elemento primario, 
en vez de la probabilidad absoluta. 

Pascal usé la probabilidad en aspectos que requerian tanto la interpretacion objeti- 
va, como una propiedad del mundo basada en simetrias o frecuencias relativas, y la 
interpretacion subjetiva, basada en el grado de creencia, el anterior en su anâlisis de pro¬ 
babilidades en juegos de azar, el posterior en la famosa «apuesta de Pascal» que discu¬ 
te sobre la existencia posible de Dios. Sin embargo, Pascal no comprendio claramente 
la distincion entre estas dos interpretaciones. La distincion fue primero establecida con 
claridad por James Bernoulli (1654-1705). 

Leibniz introdujo la nocion «clâsica» de probabilidad como una proporcion de re- 
cuentos, casos igualmente probables, que fue también utilizada por Bernoulli, aunque ad- 
quiriô importancia por Laplace (1749-1827). Esta nocion es ambigua entre la interpretacion 
frecuencialista y la interpretacion subjetiva. Los casos que pueden pensarse como igual¬ 
mente probables son o por una simetrfa fisica natural entre ellos, o simplemente porque 
no tenemos ningün conocimiento que nos guie para considerar que uno es mâs probable 
que otro. El uso de esta reciente consideracion subjetiva para justificar la asignaciôn de 
probabilidades iguales se conoce como el principio de indiferencia (Keynes, 1921). 

El debate entre objetivos y subjetivos llego a ser mâs intenso en siglo xx. Kolmo¬ 
gorov (1963), R. A. Fisher (1922) y Richard von Mises (1928) eran defensores de la in¬ 
terpretacion de la frecuencia relativa. La intepretacion de la «tendencia» de Karl Popper 
(1959, primero publicada en Alemania en 1934) rastrea las frecuencias relativas hasta 
una simetrfa fisica subyacente. Frank Ramsey (1931), Bruno de Finetti (1937), R.T. Cox 
(1946), Leonard Savage (1954) y Richard Jeffrey (1983) interpretaron las probabilidades 
como el grado de creencia de individuos especificos. Sus anâlisis de grado de creencia 
estaban estrechamente relacionados a las utilidades y al comportamiento, concreta- 
mente, a la voluntad para identificar apuestas. Rudolf Carnap, siguiendo a Leibniz y La¬ 
place, propuso un tipo diferente de interpretacion subjetiva de probabilidad, no como 



556 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


CONFIRMACIÔN 

LÔGICA INDUCTIVA 


cualquier grado de creencia del individuo real, sino como un grado de creencia que un 
individuo idealizado deberia tener ante una proposiciôn particular a, dada un conjunto 
de evidencias e. Carnap intenté ir mas alla que Leibniz y Laplace creando esta nociôn 
matemâticamente précisa de grado de confîrmaciôn, como una relacion logica ente a y e. 
El estudio de esta relacion estaba destinada a constituir una disciplina matemâtica 11a- 
mada logica inductiva, anâloga a la logica deductiva (Carnap, 1948, 1950). Camap no 
fue capaz de extender su logica inductiva mucho mas alla del caso proposicional, y Put- 
man (1963) mostrô que los problemas fondamentales impedirfan una extension estricta 
a lenguajes capaces de expresar la aritmética. 

El problema de las clases de referencia esta estrechamente relacionado al intento de 
encontrar una logica inductiva. La propuesta de la elecciôn de la clase de referencia «mas 
précisa» de tamano suficiente la propuso formalmente Reichenbach (1949). Se han he- 
cho varios intentas, principalmente por Henry Kyburg (1977, 1983), para formular po- 
liticas mas sofisticadas para evitar varias falacias obvias que surgen con la régla de 
Reichenbach, pero esas aproximaciones siguen siendo un tanto ad hoc. Un trabajo mas 
reciente de Bacchus, Grave, Halpern y Soller (1992) extiende los métodos de Carnap a 
teorias de primer orden, de este modo esquivan muchas de las dificultades asociadas con 
el método sencillo de la clase de referencia. 

El razonamiento probabilista ha sido usado en IA desde 1960, especialmente en diag¬ 
nôstico médico. Fue usado no solo para hacer un diagnôstico a partir de la evidencia dis¬ 
ponible, sino también para optar a mas problemas y anâlisis utilizando la teoria del valor 
de la informaciôn (Secciôn 16.6) cuando la evidencia disponible no era concluyente 
(Gorry, 1968; Gorry et al., 1973). Un sistema funcionô mejor que los expertos huma- 
nos en el diagnôstico de dolencias abdominales agudas (de Dombal et al., 1974). Sin em¬ 
bargo, estos primeras sistemas bayesianos padecieron una sérié de problemas. Ya que 
carecian del modelo teôrico de las condiciones que diagnosticaban, eran vulnérables a 
datos no representativos que aparecian en situaciones para las que solo se ténia dispo¬ 
nible una muestra pequena (de Dombat et al., 1981). Mas elementalmente incluso, ya 
que carecian de un formalismo conciso (tal como el descrito en el Capitulo 14) para la 
representaciôn y la utilizaciôn de la informaciôn de independencia condicional, depen- 
dian de la adquisiciôn, almacenamiento y procesamiento de grandes tablas de datos pro- 
babilistas. Por estas dificultades, los métodos probabilistas para hacer frente a la 
incertidumbre cayeron en desgracia en la IA desde el 1970 hasta mediados de 1980. Los 
desarrollos desde finales de 1980 se describen en el capitulo siguiente. 

La representaciôn simple Bayes para distribuciones conjuntas se ha estudiado ex- 
haustivamente en la literatura de reconocimiento de patrones desde 1950 (Duda y Hart, 
1973). También se ha usado, a menu do sin darse cuenta, en recuperaciôn de textos, em- 
pezando con el trabajo de Maron (1961). Los fundamentos probabilistas de esta técni- 
ca, mejor descrita en el Ejercicio 13.18, fueron establecidos por Robertson y Sparck Jones 
(1976). Domingos y Pazzani (1997) proporcionan una explicaciôn para el éxito sor- 
prendente del razonamiento del simple Bayes incluso en dominios donde las suposicio- 
nes de independencia son claramente violadas. 

Hay mucho libres buenos introductorios a la teoria de la probabilidad, incluyendo 
los de Chung (1979) y Ross (1988). Morris DeGroot (1989) ofrece una introducciôn que 
combina la probabilidad y la estadistica desde el punto de vista bayesiano, asi como un 
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texto mas avanzado (1970). El libro de Richard Hamming (1991) da una introduccion 
sofisticada matemâtica a la teoria de la probabilidad desde el punto de vista de una in- 
terpretacion de la propension basada en simetria fîsica. Hacking (1975) y Hald (1990) 
cubren la historia antigua del concepto de probabilidad. Bernstein (1996) proporciona 
una entretenida narracion general de la historia del riesgo. 



EJERCICIOS 

13.1 Demuestre a partir de los primeros principios que P{a\b a a) = 1. 

13.2 Usando los axiomas de la probabilidad, pruebe que cualquier distribucion de pro¬ 
babilidad sobre una variable aleatoria discreta debe sumar 1. 


13.3 £ Séria racional para un agente tener las très creencias P (A ) = 0,4, P( B ) = 0,3, 
P(A v B) = 0,5 ? Si es asl, ^qué rango de probabilidades séria racional que el agen¬ 
te tuviera para A a B1 Invente una tabla como la de la Figura 13.2, y muestre como 
apoya su argumento sobre racionalidad. Enfonces haga otra version de la tabla don- 
de P(A v B) — 0,7. Explique por qué es racional tener esta probabilidad, incluso aun- 
que la tabla muestre un caso de pérdida y très en los que ni tenga ni pérdida ni 
beneficios. ( Pista : ^a qué esta el Agente 1 obligado respecta a la probabilidad de los 
cuatro casos, especialmente al caso que es una pérdida?) 

13.4 Esta cuestiôn esta relacionada con las propiedades de los sucesos atomicos, como 
se analizo en el Apartado 11.4. 

a) Pmebe que la disyuncion de todos los posibles sucesos atomicos es logicamente 
équivalente a cierto. [Pista: usar una demostracion por inducciôn sobre el nü- 
mero de variables aleatorias.] 

b) Pruebe que cualquier proposicion es logicamente équivalente a la disyuncion de 
los sucesos atomicos que conllevan su verdad. 

13.5 Considéré el dominio del reparto de carias de cinco carias de poker con una ba- 
raja estândar de 52 carias, bajo el supuesto de que el repartidor es imparcial 

a) ^Cuântos sucesos atomicos hay en la distribucion de probabilidad conjunta 
(e.d., cuântas manos de cinco carias hay)? 

b) / ; Cual es la probabilidad de cada suceso atémico? 

c) <-Cua! es la probabilidad de obtener una escalera real?, ;y cuatro de un tipo? 

13.6 Dada la distribucion conjunta compléta que se muestra en la Figura 13.3, calcu¬ 
le lo siguiente: 

a) P(doIor-de-muelas) 

b) P(Caries) 

c ) P(Dolor-de-mueIas/caries) 

d) P(Caries/dolor-de-muelas v inferctarse). 

13.7 Demuestre que las très formas de independencia de la Ecuacion (13.8) son équi¬ 
valentes. 
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13.8 Después de su révision anual, el médico tiene malas y buenas noticias. Las ma¬ 
las noticias es que dio positivo para una enfermedad grave y que el test es exacto al 99 
por ciento (la probabilidad de dar positivo cuando tiene la enfermedad es 0,99, como lo 
es la probabilidad de dar negativo cuando no tiene la enfermedad). Las buenas noticias 
son que esta es una enfermedad poco comün, sorprendentemente en solo una de 10.000 
personas de su edad. / ; Por qué es una buena noticia que la enfermedad sea poco comün? 
/Cuai es el riesgo de que tenga en realidad la enfermedad? 

13.9 Es bastante ütil a menudo considerar el efecto de algunas proposiciones espe- 
cfficas en el contexto de algün marco general en el que la evidencia permanece fija, mas 
que en contextos con ausencia compléta de informacion. Las siguientes cuestiones le pi- 
den que demuestre mas versiones generales de la régla del producto y la régla de Bayes, 
con respecto a alguna evidencia de fondo e: 

a) Pruebe la version condicionada de la régla del producto general: 

P(X,y|e) = P(X|Le)P(L|e) 

b) Pruebe la version condicionada de la régla de Bayes de la Ecuacion (13.10). 

13.10 Demuestre que la afirmacion: 

P(A, B\C) = P(A|C)P(5|C) 
es équivalente a cualquiera de estas afirmaciones 

P(A|fl,C) = P(A|C) y P(£|A,C) = P(5|C) 

13.11 Suponga que tiene una boisa que contiene n monedas no trucadas. Esta dicien- 
do que n — 1 de esta monedas son normales, con caras por una lado y cruces por el otro, 
mientras que una moneda es una falsificaciôn, con caras a ambos lados. 

a) Suponga que mete la mano en la boisa, escoge una moneda uniformemente al 
azar, la lanza, y obtiene una cara. / ; Cual es la probabilidad (condicional) de que 
la moneda que eligio sea la moneda falsifie ada? 

b) Suponga que continua el lanzamiento de la moneda un total de k veces después 
de escogerla y ve k caras. ^Ahora cuâl es la probabilidad condicional de que eli- 
giera la moneda falsa? 

c) Suponga que quiere decidir si la moneda elegida era falsa lanzândola k veces. 
El procedimiento de decision retorna FALSIFICADO si todos los k lanza- 
mientos presentan caras, en otro caso retorna NORMAL. ^Cuâl es la probabi¬ 
lidad (incondicional) de que este procedimiento cometa un error? 

13.12 En este ejercicio, completarâ el câlculo de la normalizaciôn para el ejemplo de 
la meningitis. Primero, invente un valor adecuado para P(S\—iM), y usarlo para calcular 
los valores no normalizados de P(M\S) y P(—iM\S) (e.d., ignorando el término P(S) en 
la expresion de la régla de Bayes). Ahora normalice estos valores para que sumen 1. 

13.13 Este ejercicio indaga el modo en el que las relaciones de independencia condi¬ 
cional afectan a la cantidad de informacion necesaria para câlculos probabilistas: 

a) Suponga que deseamos calcular P{h\e l ,e 2 ) y tenemos informacion de no inde¬ 
pendencia condicional. / ; Cuai de los siguientes conjuntos de nümeros son sufi- 
cientes para el câlculo? 
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(i) P (E v E 2 ), P (H), P {E X \H), V{E 2 \H) 

(ii) P (E v E 2 ),P(H),P(E v E 2 \H) 

(iii) P(H), P(£j//), ?(E 2 \H) 

b ) Suponga que sabemos que V(E\H, E-,) = P(£j|//) para todos los valores de H, 
£j, E 2 . ^Ahora cuâl de los très conjuntos son suficientes? 

13.14 Sean X, Y, Z variables aleatorias booleanas. Etiquete las ocho entradas de la dis¬ 
tribution conjunta P(A, Y ,Z) desde la a hasta la h. Exprese las afirmaciones de que X e 
Y son independientes condicionalmente dada Z como un conjunto de ecuaciones rela- 
cionando a hasta h. ^Cuântas ecuaciones no redundantes hay? 

13.15 (Adaptado de Pearl (1988)). Suponga que es testigo de un accidente nocturno 
en el que el conductor se da a la fuga que implica a un taxi en Atenas. Todos los taxis 
de Atenas son azules o verdes. Jura, bajo juramento, que el taxi era azul. Exhaustivas 
experimentaciones demuestran que, bajo las condiciones de poca iluminacion, la dis- 
tinciôn entre el azul y el verde es fiable un 75 por ciento. / ; Es posible calcular el color 
mas crtible para el taxi? ( Pista: Distinguir cuidadosamente entre la proposition de que 
el taxi es azul y la proposition de que parece azul.) 

{Y en el caso de que nueve de cada 10 taxis atenienses son verdes? 

13.16 (Adaptado de Pearl (1988)). Très prisioneros, A,ByC, estân encerrados en sus 
celdas. Es de conocimiento popular que uno de ellos sera ejecutado al dia siguiente y 
los otros absueltos. Solo el gobernador sabe cuâl de ellos sera ejecutado. El prisionero 
A pide un favor al guardiân: «Por favor pregunte al gobernador quién sera ejecutado, y 
enfonces dele un mensaje a uno de mis amigos B o C y hazle saber que sera absuelto 
manana.» El guardiân estâ de acuerdo, y vuelve mâs tarde y le dice a A que le dio el men¬ 
saje de indulto a B. 

/ Cuâics son las posibilidades de A para que sea ejecutado, dada esta information? 
(Responda esto matemâticamente, no con agitaciones enérgicas de manos) 

13.17 Escriba un algoritmo general para responder a preguntas de la forma V(Causa\E), 
utilizando una distribution simple Bayes. Deberia asumir que la evidencia e puede asig- 
nar valores a cualquier subconjunto de las variables efecto. 

13.18 La clasificaciôn de textos es la tarea de asignar a una categoria un documento 
dado de entre un conjunto fijo de categorias, sobre la base de lo que contiene el texto. 
Los modelos simples Bayes se usan a menudo para esta tarea. En estos modelos, la va¬ 
riable pregunta es la categoria del documento, y las variables «efecto» son la presencia 
o ausencia de cada palabra en el lenguaje; se supone que las palabras se encuentran en 
los documentos independientemente, con frecuencias determinadas por la categoria del 
documento. 

a) Explique con précision como puede constmirse uno de taies modelos, dado como 
«datos de entrenamiento» un conjunto de documentos que han sido asignados 
a las categorias. 

b ) Explique con précision como catalogar un nuevo documento. 

c ) / ; Es razonable el supuesto de independencia? Discütalo. 
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13.19 En nuestro anâlisis del mundo wumpus, usamos el hecho de que cada cuadrado 
contiene un pozo con probabilidad 0,2, independientemente de los contenidos de los otros 
cuadrados. Suponga en vez de eso, exactamente N/5 pozos estân dispersos uniforme- 
mente al azar entre los N cuadrados distintos al [1,1]. / Son todavla independientes las 
variables P f . y P k /? /Cuâi es ahora la distribucion conjunta P(P, v .P 44 )l Rehaga los 
câlculos para las probabilidades de los pozos en [1,3] y [2,2]. 



Razonamiento 

probabilista 



■ 


Donde explicamos cômo construit • modelos de red para razonar bajo 
incertidumbre segûn las leyes de la teoria de la probabilidad. 


En el Capitulo 13 se déclaré la sintaxis y semântica de la teoria de la probabilidad. Des- 
tacamos la importancia de las relaciones de independencia y de independencia condi- 
cional en la simplifieaciôn de las representaciones probabilistas del mundo. Este capitulo 
introduce un modo sistemâtico para representar expllcitamente taies relaciones en la for¬ 
ma de Redes Bayesianas. Definimos la sintaxis y semântica de estas redes y mostra- 
mos como pueden utilizarse para capturar conocimiento incierto de un modo natural y 
eficiente. Después mostramos cômo la inferencia probabilista, aunque computacional- 
mente intratable en el peor de los casos, puede hacerse eficiente en muchas situaciones 
prâcticas. También describimos diversos algoritmos de inferencia aproximada que son 
a menudo aplicables cuando la inferencia exacta es inviable. Exploramos procedimien- 
tos en los que la teoria de la probabilidad puede aplicarse a mundos con objetos y rela¬ 
ciones, es decir, a representaciones de primer orden, en contraposiciôn a la proposicional. 
Finalmente, damos una vision general a aproximaciones altemativas al razonamiento in¬ 
cierto. 


14.1 La representacion del conocimiento 
en un dominio incierto 


En el Capitulo 13, vimos que la distribuciôn de probabilidad conjunta compléta puede 
responder a cualquier pregunta sobre el dominio, pero puede llegar a ser enormemente 
intratable cuando el numéro de variables crece. Ademâs, la especificaciôn de probabi- 










562 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


lidades para sucesos atomicos es bastante antinatural y puede ser muy dificil a no ser 
que se tenga disponible una gran cantidad de datos desde la que se deduzcan las esti- 
maciones estadisticas. 

También vimos que las relaciones de independencia y de independencia condicio- 
nal entre variables pueden reducir enormemente el numéro de probabilidades que se ne- 
cesitan establecer para définir la distribucion de probabilidad conjunta. Esta secciôn 
red bayesiana introduce una estructura de datos llamada red bayesiana 1 para representar las depen- 

dencias entre las variables y para mostrar una descripcion escueta de cualquier distri- 
buciôn de probabilidad conjunta compléta. 

Una red bayesiana es un grafo dirigido en el que cada nodo esta comentado con in- 
formacion probabilista cuantitativa. La especificacion compléta es como sigue: 

1. Un conjunto de variables aleatorias forman los nodos de la red. Las variables 
pueden ser discretas o continuas. 

2. Un conjunto de enlaces dirigidos o fléchas conectan pares de nodos. Si hay una 
flécha de un nodo X a un nodo Y, se dice que X es un padre de Y. 

3. Cada nodo X : tiene una distribucion de probabilidad condicionada P{X\Pa- 
dres(XJ) que cuantifica el efecto de los padres del nodo. 

4. El grafo no tiene ciclos dirigidos (y asf es un grafo aciclico dirigido, o GAD). 

La topologia de la red (el conjunto de nodos y enlaces) especifica las relaciones de in¬ 
dependencia condicional que se tienen en el dominio, de una forma que se precisarâ 
dentro de poco. El significado intuitivo de una flécha en una red construida correcta- 
mente es, habitualmente, que X tiene una influencia directa sobre Y. Es generalmen- 
te sencillo para un experto del dominio decidir qué influencias directas existen en el 
area, mucho mas sencillo, de hecho, que la especificacion de las probabilidades. Una 
vez que la topologia de la red bayesiana esta disenada, necesitamos solo especificar 
una distribucion de probabilidad condicional para cada variable, dados sus padres. Ve- 
remos que la combinacion de la topologia y las distribuciones condicionales son su- 
ficientes para especificar (implicitamente) la distribucion conjunta compléta para 
todas las variables. 

Recuerde el mundo sencillo descrito en el Capitulo 13, formado por las variables Do- 
lor-de-muelas, Caries, y Tiempo. Argumentamos que Tiempo es independiente de las otras 
variables; ademâs, argumentamos que Dolor-de-muelas e Infectarse son indépendan¬ 
tes condicionalmente, dada Caries. Estas relaciones se presentan en la estructura de la 
red bayesiana que se muestra en la Figura 14.1. Formalmente, la independencia condi¬ 
cional de Dolor-de-muelas e Infectarse dada Caries esta indicada por la ausencia de un 
enlace entre Dolor-de-muelas e Infectarse. Intuitivamente, la red représenta el hecho de 
que Caries es una causa directa de Dolor-de-muelas e Infectarse, aunque no exista una 
relacion causal directa entre Dolor-de-muelas e Infectarse. 

Ahora consideremos el siguiente ejemplo, que es un poco mas complejo: tiene una 
alarma antirrobo instalada en casa, es bastante fiable en la deteccion de un robo, pero 

1 Este es el nombre mâs cornün, pero hay muchos otros, incluyendo red de creencia, red probabilista, red 
causal y mapa de conocimiento. En estadîstica, el término modelo grâfico se refiere a una clase un poco 
mâs amplia que incluye a las redes bayesianas. Una extension de las redes bayesianas llamada red de deci¬ 
sion o diagrama de influencia se tratarâ en el Capitulo 16. 
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también responde en ocasiones a pequenos terremotos. (Este ejemplo se debe a Judea 
Pearl, un residente de Los Angeles, de ahi el gran interés en terremotos.) También tie- 
ne dos vecinos, John y Mary, quienes han prometido llamarle al trabajo cuando oigan la 
alarma. John siempre llama cuando oye la alarma, pero a veces confunde el timbre del 
teléfono con la alarma con lo que llama también. A Mary, por otro lado, le gusta la mü- 
sica bastante fuerte y a veces no oye para nada la alarma. La red bayesiana para este do- 
minio se présenta en la Ligura 14.2. 

Por el momento, ignoremos las distribuciones condicionales de la figura y centré- 
monos en la topologia de la red. En el caso de esta red-robo, la topologia muestra que 
robos y terremotos afectan directamente a la probabilidad de que la alarma se dispare, 
pero tanto la llamada de John como la de Mary dependen solo de la alarma. Asi, la red 
représenta nuestras suposiciones de que ellos no perciben ningün robo directamente, que 
ellos no perciben terremotos menores, y que ellos no dialogan antes de la llamada. 

Nôtese que la red no tiene nodos que correspondan a la müsica alta que esta escu- 
chando en ese momento Mary o al timbre del teléfono y la confusion de John. Estos 



Figura 14.2 Una red bayesiana tipica, mostrando tanto la topologia de la red como las tablas de 
probabilidad condicional (TPCs). En las TPCs, las letras B, E, A, J y M significan Robo, Terremo- 
to, Alarma, JohnLlama y MaryLlama, respectivamente. 
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factores estân resumidos en la incertidumbre asociada a los enlaces de Alarma hasta 
JohnLlama y MaryLlama. Esto muestra tanto la pereza como la ignorancia en funcio- 
namiento: séria mucho trabajo descubrir por qué esos factores serian mas o menos po- 
sibles en cualquier caso particular, y de todas formas no tenemos un modo razonable 
para obtener la informacion relevante. Las probabilidades resumen un conjunto poten- 
cialmente infinito de circunstancias en las que la alarma podria fallar y no se dispara 
(humedad alta, fallo de la corriente, baterias agotadas, cables cortados, un raton muer- 
to en el interior atasca la campana, etc.) o John o Mary podrian fallar y no llaman para 
informarnos (salir a comer, estar de vacaciones, temporalmente sordos, pasa un heli- 
coptero, etc.). De este modo, un agente pequeno puede hacer frente a un mundo muy 
grande, al menos aproximadamente. El grado de aproximacion puede mejorarse si in- 
troducimos informacion relevante adicional. 

Ahora pasemos a las distribuciones condicionales que se muestran en la Figura 
14.2. En la figura, cada distribucion se muestra como una tabla de probabilidad con- 
dicional, o TPC. (Este formato de tabla puede usarse para variables discretas; otras re- 
presentaciones, incluyendo las adecuadas para variables continuas, se describen en la 
Seccion 14.2.) Cada fila de una TPC contiene la probabilidad condicional de cada va- 
lor del nodo para un caso de condicionamiento. Un caso de condicionamiento es una 
combinacion posible de valores de los nodos padres (un suceso atômico en miniatura, 
si prefiere). Cada fila debe sumar 1, ya que las entradas representan un conjunto ex- 
haustivo de casos para la variable. Para variables booleanas, una vez que conoce que la 
probabilidad de un valor verdad es p, la probabilidad de falso debe ser 1 — p, de esta 
manera omitimos el segundo numéro a menudo, como en la Figura 14.2. En general, una 
tabla para una variable booleana con k padres booleanos contiene 2 k probabilidades ex¬ 
plicitas por separado. Un nodo sin padres tiene solo una fila, que représenta las proba¬ 
bilidades a priori de cada posible valor de la variable. 


14.2 La semântica de las redes bayesianas 


La seccion anterior describiô lo que es una red, pero no lo que significa. Hay dos for¬ 
mas de entender la semântica de las redes bayesianas. La primera es ver la red como 
una representacion de la distribucion de probabilidad conjunta. La segunda es verla 
como una codificacion de un conjunto de afirmaciones de independencia condicional. 
Los dos puntos de vista son équivalentes, pero el primero résulta ütil para entender 
como construir redes, aunque el segundo es ütil para el diseno de procedimientos de 
inferencia. 

La representacion de la distribucion conjunta compléta 

Una red bayesiana proporciona una descripcion compléta del dominio. Cada entrada de 
la distribucion de probabilidad conjunta (de aqui en adelante se abreviarâ como «con¬ 
junta») puede calcularse a partir de la informacion de la red. Una entrada genérica en la 
distribucion conjunta es la probabilidad de una conjunciôn de asignaciones concretas a 
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cada variable, tal como P{X x = x x a ... a X n = x n ). Para ésta usaremos la notaciôn abre- 
viada P{x x .x n ). El valor de esta entrada esta dado por la formula 

P(*i...,x„) =f[P(x i \padres(X i )), (14.1) 

i = 1 

donde padres{X i ) dénota los valores especfficos de las variables de Padres(X ; ). Asi, cada 
entrada de la distribuciôn conjunta esta representada por el producto de los elementos apro- 
piados de las tablas de las probabilidades condicionales (TPCs) de la red bayesiana. Las 
TPCs proporcionan asi una representaciôn descompuesta de la distribuciôn conjunta. 

Para ilustrar esto, podemos calcular la probabilidad de que la alarma ha sonado, pero 
no ha ocurrido ni un robo ni un terremoto, y tanto John como Mary llaman. Usamos nom¬ 
bres para las variables con una sola letra: 

P(j Am a a a —i b a —ie) 

' = P(j\a) P(m\a ) P(a\ -,b a -, e) P(-nb) P(-,e) 

= 0,90 X 0,70 X 0,001 X 0,999 X 0,998 = 0,00062. 

En la Secciôn 13.4 se explicô que la distribuciôn conjunta compléta puede usarse para 
responder cualquier pregunta sobre el dominio. Si una red bayesiana es una representa¬ 
ciôn de la distribuciôn conjunta, enfonces ésta puede también ser utilizada para respon¬ 
der cualquier pregunta, a partir de la sumatoria de todas las entradas conjuntas relevantes. 
En la Secciôn 14.4 se explica como hacer esto, aunque también describe métodos que 
son mucho mas eficientes. 


Un método para la construcciôn de redes bayesianas 


La Ecuaciôn (14.1) define lo que significa una red bayesiana dada. No explica, sin em¬ 
bargo, como construir una red bayesiana de tal modo que la distribuciôn conjunta ré¬ 
sultante sea una representaciôn buena de un dominio dado. Ahora mostraremos que la 
Ecuaciôn (14.1) implica ciertas relaciones de independencia condicional que pueden uti- 
lizarse para guiar al ingeniero del conocimiento en la construcciôn de la topologia de la 
red. Primero, reescribimos la distribuciôn conjunta en términos de una probabilidad con¬ 
dicional, usando la régla del producto (véase Capitulo 13): 

P(x v ..,x n ) = P(x n \x n _ l ...,x 1 )P(x n _ v ..,x 1 ) 

Enfonces repetimos el proceso, reduciendo cada probabilidad con conjunciones a una 
probabilidad condicional con una conjunciôn mas pequena. Terminamos con un gran pro¬ 
ducto: . . . 

P(x v ..,x n ) = P(x n \x n _ 1 ...,x ï )P(x n _ ï \x n _ 2 ...,x x ) ...P{x 2 \x x )P{x x ) 

n 

= I[P(x i \x i _ v ..,x l ) 

1 = 1 


REGLA DE LA CADENA 


Esta identidad es cierta para cualquier conjunto de variables aleatorias y se llama régla 
de la cadena. Comparândola con la Ecuaciôn (14.1), vemos que la especificaciôn de la 
distribuciôn conjunta es équivalente a la afirmaciôn general de que, para cada variable 
X. de la red, 


X f ) = P (X^PadresiX,)) 


(14.2) 
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siempre que Padres(X ; ) Ç= {X, _,..., Xj ). Esta ültima condiciôn se satisface siempre que 
se etiqueten los nodos en cualquier orden que sea consistente con el orden parcial im¬ 
plicite» en la estructura del grafo. 

Lo que la Ecuaciôn (14.2) dice es que la red bayesiana es una representacion co- 
rrecta del dominio solo si cada nodo es independiente condicionalmente de sus pre- 
decesores en la ordenacion de nodos, dados sus padres. Asi, para construir una red 
bayesiana con la estructura correcta para el dominio, necesitamos elegir los padres de 
cada nodo de manera que esta propiedad se verifique. Intuitivamente, los padres de un 
nodo A, contendrian a aquellos nodos de A,..., X ( l que influyen directamente en A,. 
Por ejemplo, suponga que hemos completado la red de la Figura 14.2 excepta la elec- 
ciôn de padres para MaryLlama. MaryLlama esta ciertamente influenciada por si hay 
un Robo o un Terremoto, pero no influenciada directamente. Intutivamente, nuestro 
conocimiento del dominio nos dice que estas sucesos influyen en el comportamiento 
de llamar por teléfono de Mary solo a través de sus efectos sobre la alarma. Ademâs, 
dado el estado de la alarma, si John llama no tiene influencia sobre la llamada de Mary. 
Formalmente hablando, creemos que la afirmaciôn de independencia condicional con¬ 
sidéra: 

P( MaryL l an i a [lot mLlama, Alarma, Terremoto, Robo) = P(MaryLlama\Alarma). 

Compactaciôn y ordenacion de nodos 

Ademâs de ser una representacion compléta y no redundante del dominio, una red ba¬ 
yesiana puede a menudo ser mucho mas compacta que la distribucion conjunta com¬ 
pléta. Esta propiedad es lo que la hace mas factible para manipular dominios con 
muchas variables. La compactaciôn de redes bayesianas es un ejemplo de una propiedad 
muy general de los sistemas estructurados localmente (también llamados esparci- 
dos). En un sistema estructurado localmente, cada subcomponente interactüa directa¬ 
mente con solo un nümero limitado de los otros componentes, a pesar del nümero total 
de componentes. La estructura local esta asociada usualmente con un crecimiento en 
complejidad lineal mas que exponencial. En el caso de redes bayesianas, es razona- 
ble suponer que en la mayoria de los dominios cada variable aleatoria esta directamente 
influenciada por al menos otras k, para alguna constante k. Si asumimos n variables 
booleanas por simplicidad, entonces la cantidad de informaciôn necesaria para espe- 
cificar cada tabla de probabilidad condicional sera a lo mas 2 A nümeros, y la red com¬ 
pléta puede especificarse por n2 k nümeros. En contraposiciôn, la distribucion conjunta 
contiene 2" nümeros. Para entender este contraste, suponga que tenemos n = 30 no¬ 
dos, cada uno con cinco padres (k = 5). Entonces la red bayesiana requiere 960 nü¬ 
meros, pero la distribucion de probabilidad conjunta requiere sobre unos 1.000 
millones. 

Hay dominios en los que cada variable puede estar directamente influenciada por to- 
das las demâs, de esta manera la red esta completamente conectada. Entonces la espe- 
cificaciôn de las tablas de probabilidad condicional requiere la misma cantidad de 
informaciôn que la especificada en la distribucion conjunta. En algunos dominios, ha- 
brâ dependencias poco firmes que deberian ser estrictamente incluidas, anadiendo un nue- 
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vo enlace. Pero si estas dependencias son muy indirectas, enfonces puede no merecer la 
pena la complejidad anadida en la red a cambio de un poco de ganancia en la précision. 
Por ejemplo, uno podria rebâtir a nuestra red-robo sobre la base de que si hay un terre- 
moto, enfonces John y Mary no deberian llamar incluso si oyen la alarma, ya que asu- 
men que el terremoto es la causa. Tanto el anadir un enlace desde Terremoto hasta 
JohnLlama como a MaryLlama (y asi agrandamos las tablas) dépende de la compara- 
cion que se haga entre la importancia de obtener probabilidades mas précisas y el cos- 
to para especificar la informacion extra. 

Incluso en un dominio estructurado localmente, la construccion de una red baye- 
siana estructurada localmente no es un problema trivial. Necesitamos no solo que cada 
variable esté directamente influenciada por solo unas pocas de los demâs, sino tam- 
bién que la topologia de la red refleje aquellas influencias directas con el conjunto apro- 
piado de padres. Debido al modo en que funciona el procedimiento de construccion, 
los «influyentes directos» tendrân que ser anadidos a la red primero si llegan a ser pa¬ 
dres del nodo al que influyen. Asi, el orden correcto en el que agregamos nodos es 
anadir las «causas raîces» primero, luego las variables que influyen, y asi sucesiva- 
mente, hasta llegar a las «hojas», que no tienen influencia causal directa sobre las de¬ 
mâs variables. 

/ ; Qué ocurre si por casualidad elegimos el orden equivocado? Consideremos de nue- 
vo el ejemplo del robo. Suponga que decidimos anadir los nodos en el orden MaryLla¬ 
ma, JohnLlama, Alarma, Robo, Terremoto. Enfonces obtenemos la red un poco mas 
complicada que se muestra en la Figura 14.3(a). El proceso es como sigue: 

• Anadimos MaryLlama'. no padres. 

• Anadimos JohnLlama'. si Mary llama, eso probablemente significa que la alarma 
se ha disparado, lo que por supuesto deberia hacer mas probable que John llame. 
Asi, JohnLlama necesita a MaryLLama como padre. 

• Anadimos Alarma : claramente, si ambos llaman, es mas probable que la alarma 
haya saltado que si uno u otro llama, asi necesitamos tanto a MaryLlama como 
JohnLlama como padres. 

• Anadimos Robo : si sabemos el estado de la alarma, entonces la llamada de John 
o Mary deberia darnos informacion sobre nuestro timbre del telefono o la müsica 
de Mary, pero no sobre el robo: 

P(Robo\Alarma, JohnLlama, MaryLlama )= P(Robe)\Alarma ) 

Asi necesitamos solo Alarma como padre. 

• Anadimos Terremoto : si la alarma esta funcionando, es mas creible que haya 
habido un terremoto. (La alarma es un detector de terremotos en cierto modo.) Pero 
si sabemos que ha habido un robo, entonces eso explica la alarma, y la probabili- 
dad de un terremoto deberia estar solo ligeramente por encima de lo normal. Asi, 
necesitamos tanto Alarma como Robo como padres. 

La red résultante tiene dos enlaces mas que la red original de la Figura 14.2 y requiere 
precisar très probabilidades mas. Lo que es peor, algunos de los enlaces representan re- 
laciones indirectas que requieren juicios probabilistas dificiles y antinaturales, tal como 
la asignacion de la probabilidad de Terremoto, dado Robo y Alarma. Este fenomeno es 
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Figura 14.3 La estructura de la red dépende del orden de anadidura. En cada red, hemos intro- 
ducido nodos en un orden de arriba hacia abajo. 



bastante generalizado y esta relacionado a la distinciôn entre los modelos causales y de 
diagnôstico introducidos en el Capitulo 8. Si intentamos construir un modelo de diag¬ 
nôstico con enlaces desde los smtomas a las causas (como de MaryLlama a Alarma o 
de Alarma aRobo ), acabamos teniendo dependencias adicionales especificas entre cau¬ 
sas que hubieran sido independientes (y a menudo, también entre smtomas que se pre- 
sentan por separado.) Si nos cenimos a un modelo causal, terminamos teniendo que 
especificar menos nûmeros, y los nümeros serân muchas veces mâsfâciles de plantear. 
En el dominio de la medicina, por ejemplo, Tversky y Kahneman (1982) han demos- 
trado que los flsicos expertos prefieren dar juicios probabilistas para réglas causales 
antes que para las de diagnôstico. 

La Figura 14.3(b) muestra una ordenaciôn de nodos muy mala: MaryLLama, John- 
Llama, Terremoto, Robo, Alarma. Esta red requiere que se especifiquen 31 probabili- 
dades distintas (exactamente las mismas que la distribuciôn conjunta compléta). Es 
importante darse cuenta, sin embargo, de que las très redes pueden representar exacta¬ 
mente la misma distribuciôn conjunta. Las dos ültimas versiones simplemente fracasan 
en la representaciôn de todas las relaciones de independencia condicional y de ahi que 
terminen especificando muchos nümeros innecesarios. 


Relaciones de independencia condicional en redes 
bayesianas 

Elemos proporcionado una semântica «numérica» para redes bayesianas en términos de 
una representaciôn de la distribuciôn conjunta compléta, al igual que la Ecuaciôn ( 14.1). 
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Utilizar la semântica para deducir un método de construccion de redes bayesianas nos 
ha llevado a la consecuencia de que un nodo es independiente condicionalmente de sus 
predecesores, dados sus padres. Résulta que también podemos ir en la otra direcciôn. Po- 
demos empezar con una semântica «topologica» que especifique las relaciones de in- 
dependencia condicional codificadas en la estructura del grafo, y de éstas podemos 
deducir la semântica «numérica». La semântica topologica viene dada por cualquiera de 
los requisitos siguientes, que son équivalentes 2 : 

1. Un nodo es independiente condicionalmente de sus no-descendientes, dados sus 
padres. Por ejemplo, en la Figura 14.2, JohnLlama es independiente de Robo y 
Terremoto, dado el valor de Alarma. 

2. Un nodo es independiente condicionalmente de todos los demâs nodos de la red, 
dados sus padres, hijos, y padres de sus hijos, esto es, dado su manto de Mar- 
kov. Por ejemplo, Robo es independiente de JohnLlama y MaryLlama, dados 
Alarma y Terremoto. 

Estos requisitos se ilustran en la Figura 14.4. A partir de estas declaraciones de inde- 
pendencia condicional y las TPCs, la distribucion conjunta compléta puede recons- 
tmirse; asi la semântica «numérica» y la semântica «topologica» son équivalentes. 



2 Hay también un criterio topolôgico general llamado d-separaciôn para decidir si un conjunto de nodos 
X es independiente de otro conjunto Y, dado un tercer conjunto Z. El criterio es mâs complicado y no es 
necesario para deducir los algoritmos de este capitulo, as! que lo omitimos. Los detalles pueden encontrarse 
en Russell y Norving ( 1995) o Pearl (1988). Shachter ( 1998) da un método mâs intuitivo para determinar 
la d-separaciôn. 
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14.3 Representacion efîciente de las distribuciones 
condicionales 


DISTRIBUCIÔN 

CANÔNICA 


N0D0S 

DETERMINISTAS 


RUID0-0R 


N0D0 DE FILTRACION 


Incluso si el numéro mâximo de padres k es mas bien pequeno, rellenar la TPC de un 
nodo requiere hasta 0(2 k ) numéros y quizâs una gran cantidad de experiencia con todos 
los casos de condicionamiento posibles. En realidad, éste es un escenario del peor caso 
en el que las relaciones entre los padres y los hijos son completamente arbitrarias. 
Usualmente, taies relaciones estân descritas por una distribuciôn canônica que corres¬ 
ponde a algün modelo estândar. En taies casos, la tabla compléta puede especificarse 11a- 
mândola como el modelo y quizâs aportando unos pocos parâmetros, mucho mas fâcil 
que proporcionando un nümero exponencial de parâmetros. 

El ejemplo mâs sencillo lo proporcionan los nodos deterministas. Un nodo deter- 
minista tiene su valor exactamente especificado por los valores de sus padres, sin in- 
certidumbre. La relacion puede ser lôgica: por ejemplo, la relacion entre los nodos 
padres Canadienses, EstadoUnidense , Mejicano y el nodo hijo NorteAmericano es sim- 
plemente que el hijo es la disyunciôn de los padres. La relacion también puede ser nu- 
mérica: por ejemplo, si los nodos padres son los precios de un modelo particular de coche 
en distintas tiendas de compra-venta, y el nodo hijo es el precio que termina pagando 
un cazador de gangas, enfonces el nodo hijo es el minimo de los valores padre; o si los 
nodos padres son las entradas de un lago (nos, residuos, precipitaciones) y las salidas 
del lago (nos, evaporaciôn, filtraciones) y el hijo es el cambio del nivel de agua del lago, 
enfonces el valor del hijo es la diferencia entre los padres referentes a las entradas y los 
padres que se refieran a las salidas. 

Las relaciones de incertidumbre a menudo pueden caracterizarse por las llamadas 
relaciones lôgicas «ruido». El ejemplo estândar es la relacion ruido-OR, que es una 
generalizaciôn del OR lôgico. En lôgica proposicional, diriamos que Fiebre es cierto 
si y solo si Resfriado, Gripe o Malaria es cierta. El modelo ruido-OR tiene en cuenta 
la incertidumbre concerniente a la capacidad de cada padre para causar que el hijo sea 
cierto (la relacion causal entre padre e hijo puede ser inhibida, y asi un paciente podria 
tener un resfriado, pero no manifestar fiebre). El modelo considéra dos suposiciones. 
Primero, asume que todas las causas posibles estân incluidas. (Esto no es tan estricto 
como parece, ya que siempre podemos anadir el llamado nodo de flltraciôn que agru- 
pa a las «causas de todo tipo».) Segundo, asume que la inhibiciôn de cada padre es in- 
dependiente de la inhibiciôn de cualquier otro padre: por ejemplo, el que se inhiba 
Malaria como causa de la fiebre es independiente de que se inhiba Gripe como causa 
de la fiebre. Dados estos supuestos, Fiebre esfalso si y solo si todos sus padres cier- 
tos estân inhibidos, y la probabilidad de ésta es el producto de las probabilidades de in¬ 
hibiciôn de cada padre. Supongamos que estas probabilidades de inhibiciôn son las 
siguientes: 


Pi —ifiebre \ resfriado , —i gripe, —malaria) = 0,6 
P (^fiebre | —i resfriado , gripe, —i malaria ) = 0,2 
P (^fiebre | —i resfriado . —i gripe, malaria ) = 0,1 







RAZONAMIENTO PROBABIL1STA 571 


DISCRETIZACION 

PARÂMETROS 

RED BAYESIANA 
HlBRIDA 


Entonces, a partir de esta informaciôn y las suposiciones del ruido-OR, puede construirse 
la TPC entera. La siguiente tabla muestra como: 


Resfriado 

Gripe 

Malaria 

P(Fiebre) 

P(-iFiebre) 

F 

F 

F 

0,0 

1,0 

F 

F 

V 

0,9 

0,1 

F 

V 

F 

0,8 

0,2 

F 

V 

V 

0,98 

0,02 = 0,2 X 0,1 

V 

F 

F 

0,4 

0,6 

V 

F 

V 

0,94 

0,06 = 0,6 X 0,1 

V 

V 

F 

0,88 

0,12 = 0,6 X 0,2 

V 

V 

V 

0,988 

0,012 = 0,6 X 0,2 X 0,1 


En general, las relaciones lôgicas de ruido en las que una variable dépende de k pa- 
dres pueden describirse utilizando O(k) paramétras en vez de ()(2 k ) para la tabla de pro- 
babilidad condicional compléta. Estos hace el câlculo y el aprendizaje mucho mas fâcil. 
Por ejemplo, la red CPCS (Pradhan et al., 1994) usa distribuciones ruido-OR y ruido- 
MAX para modelar las relaciones entre enfermedades y smtomas en medicina interna. 
Con 448 nodos y 906 enlaces, necesita solo 8.254 valores en vez de 133.931.430 para 
una red con TPCs complétas. 


Redes bayesianas con variables continuas 

Muchos problemas del mundo real involucran cantidades continuas, taies como altura, 
masa, temperatura y dinero; de hecho, la mayor parte de la estadlstica trata con varia¬ 
bles aleatorias cuyos dominios son continuos. Por definiciôn, las variables continuas tie- 
nen un nümero infinito de valores posibles, as! que es imposible especificar explicitamente 
las probabilidades condicionadas para cada valor. Una posible forma para manipular 
variables continuas es obviarlas utilizando la discretizaciôn (esto es, dividir los valo¬ 
res posibles en un conjunto fijo de intervalos). Por ejemplo, las temperaturas podrîan di- 
vidirse en (<0°C), (0°C-100°C), y (> 100°C). La discretizaciôn a veces es una soluciôn 
aceptable, pero a menudo se traduce en una pérdida considérable de précision y TPC 
muy grandes. La otra soluciôn es définir familias estândares de funciones de densidad 
de probabilidad (véase Apéndice A) que estén especificadas por un nümero finito de pa¬ 
ramètres. Por ejemplo, una distribuciôn gaussiana (o normal) N(/jl, a 2 ){x) tiene la me¬ 
dia /Ji y la varianza a 2 como parâmetros. 

Una red con variables tanto discretas como continuas se llama red bayesiana hi'brida. 
Para especificar una red hibrida, tenemos que concretar dos tipos nuevos de distribuciones: 
la distribuciôn condicionada para una variable continua dados los padres discretos o con¬ 
tinuos; y la distribuciôn condicionada para una variable discreta dados los padres con¬ 
tinuos. Considéré el ejemplo sencillo de la Figura 14.5, en el que un cliente compra fruta 
dependiendo de su costo, el cual dépende a su vez del tamano de la cosecha y de la apli- 
caciôn del plan de subvenciôn estatal. La variable Costo es continua y tiene padres con¬ 
tinuos y discretos; la variable Compras es discreta y tiene un padre continuo. 
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Para la variable Costo, necesitamos especificar P( Costa \ C osée ha , Subvention). El 
padre discreto se maneja mediante enumeraciôn explicita, esto es, especificando tanto 
P{Costo\Cosecha, subvention ) como P(Costo\Cosecha, —i subvention ). Para manejar 
Cosecha, especificamos como la distribuciôn sobre el costo c dépende del valor conti- 
nuo b de Cosecha. En otras palabras, especificamos los parâmetro de la distribuciôn cos- 
gaussiana lineal to como una funciôn de h. La elecciôn mas comün es la distribuciôn Gaussiana lineal, 
en la que el hijo tiene una distribuciôn Gaussiana cuya media /jl varia linealmente con 
el valor de los padres y cuya desviaciôn estândar (resta fijada. Necesitamos dos distri- 
buciones, una para subvention y otra para —i subvention, con paramétras diferentes: 

l T 1 1 (c-(afi + b)Ÿ 

P(c\h, subvention) = N{a t h + b t , cr‘ )(c) = -— e~l\ y ) 

cr t y 277 

0 1 1 ( c - ( a f h + b f ) ^ 

P(c\h, -i subvention ) = N(a f h + b f , crj)(c) = —-- e~ 2 \ v f j 

a f y2TT 

Para este ejemplo, enfonces, la distribuciôn condicionada para Costo esta especificada 
llamândola como distribuciôn gaussiana lineal y aportando los parâmetros a,, b t , a t , a f , 
b f , y <T f . Las Figuras 14.6(a) y (b) muestran estas dos relaciones. Nôtese que en cada caso 



(a) (b) (c) 


Figura 14.6 Las grâficas de (a) y (b) muestran la distribuciôn de probabilidad de Costo como una 
funciôn del tamano de la Cosecha, con Subvention cierto y falso respectivamente. La grâftca (c ) mues- 
tra la distribuciôn P(Costo\Cosecha), obtenida como un sumatorio sobre los dos casos de subvention. 
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la pendiente es negativa, ya que el precio decrece cuando las existencias crecen. (Por su- 
puesto, el supuesto de linealidad implica que el precio llega a ser negativo en algün pun- 
to; el modelo lineal es razonable solo si el tamano de la cosecha esta limitado a un rango 
limitado.) La Figura 14.6(c) muestra la distribucion P(c\h), promediando en los dos va- 
lores posibles de Subvention y asumiendo que cada uno tiene una probabilidad a prio¬ 
ri de 0,5. Esto muestra que incluso con modelos muy sencillos pueden representarse 
bastantes distribuciones interesantes. 

La distribucion condicionada Gaussiana lineal tiene algunas propiedades especiales. 
Una red que contenga solo variables continuas con distribuciones Gaussianas lineales 
tiene una distribucion conjunta que es una distribucion Gaussiana multivariable sobre 
todas las variables (Ejercicio 14.5) 3 . (Una distribucion Gaussiana multivariable es una 
superficie con mas de una dimension que tiene un pico en la media (de dimension n) y 
disminuye por todos lados.) Cuando se anaden las variables discretas (siempre y cuan¬ 
do la variable discreta no sea hija de una variable continua), la red define una distribu- 
ciôn Gaussiana condicionada, o GC: dada cualquier asignacion de las variables 
discretas, la distribucion sobre las variables continuas es una Gaussiana multivariable. 

Ahora volvemos a las distribuciones de variables discretas con padres continuos. Con¬ 
sidéré, por ejemplo, el nodo Compras de la Figura 14.5. Parece razonable asumir que el 
cliente comprarâ si el costo es bajo y no comprarâ si es alto y que la probabilidad de la 
compra varia suavemente en algunas regiones intermedias. En otras palabras, la distri- 
buciôn condicionada es como una funcion umbral «suave». Un modo de construir um- 
brales suaves es utilizar la intégral de la distribucion normal estândar: 

4>(x) = f N(0, 1 )(x)dx 

Entonces la probabilidad de Compras dado Coste debe ser 

P(compras\Costo = c) = <ï>((-c + p)/cr) 

lo que significa que el umbral de costo se produce alrededor de p, el ancho de la ré¬ 
gion del umbral es proporcional a a, y la probabilidad de la compra decrece cuando el 
costo crece. 

Esta distribucion probit 4 se ilustra en la Figura 14.7(a). El procedimiento puede jus- 
tificarse haciendo el supuesto de que el proceso de decision subyacente tiene un umbral 
abrupto, pero que la localizacion exacta del umbral esta sometido a ruido Gaussiano ale- 
atorio. Una alternativa al modelo probit es la distribucion logit , 5 que usa la funcion sig¬ 
moïde para generar un umbral suave: 


3 Se deduce que la inferencia en redes Gaussianas lineales necesitan solo tiempo Ofn 3 ) en el peor caso, sea 
cual sea la topologfa de la red. En la Seccion 14.4, veremos que la inferencia para redes con variables dis¬ 
cretas es NP-duro. 

4 Charle Ittener Bliss ( 1899-1979) introdujo el modelo y el término probit para simplificar la expresiôn «pro- 
bability unit» (unidad de probabilidad). Bliss buscaba en la probit una escala convincente de distribuciones 
normales (desviadas) que representaran el modelo clâsico de los ensayos biologicos (donde los estîmulos es- 
tân determinados y las respuestas son aleatorias debido a la variabilidad de los niveles de estlmulo de los in- 
dividuos). (Nota del traductor.) 

5 Joseph Berkson (1899-1982) introdujo en 1944 el término logit, en analogfa al término probit de Bliss, al 
investigar métodos estadlsticos en ensayos biologicos. Propuso utilizar la inversa de la funcion loglstica 
(P(Z)=exp{Z}/l +exp{Z}) en vez de funciones de probabilidad normales. (Nota del traductor.) 
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VARIABLES 




(a) (b) 


Figura 14.7 (a) Una distribucion probit para la probabilidad de Compras dado Costo, con p, = 6,0 

y a = 1,0. (b) Una distribucion logit con los mismos paramétras. 


P(compras\Costo = c) = - 

1 + exp 

Esto se ilustra en la Figura 14.7(b). Las dos distribuciones tienen una apariencia simi- 
lar, pero la logit tiene unas «colas» mucho mas largas. La probit es a menudo un ajuste 
mejor para situaciones reales, pero la logit es a veces mas fâcil de tratar matemâticamente. 
Es ampliamente utilizada en redes neuronales (Capitulo 20). Tanto la probit como la lo¬ 
git pueden generalizarse para manejar mültiples padres continuos, tomando una combi- 
naciôn lineal de los valores de los padres. En el Ejercicio 14.6 se investigan extensiones 
para un hijo discreto multivaluado. 


-2 


-c + p 


Inferencia exacta en redes bayesianas 


La tarea bâsica de cualquier sistema de inferencia probabilista es computar la distribu- 
ciôn de probabilidad a posteriori para un conjunto de variables pregunta, dado algün 
evento observado (esto es, alguna asignacion de valores para un conjunto de variables 
evidencia). Usaremos la notaciôn introducida en el Capitulo 13: X dénota a la variable 
pregunta; E dénota al conjunto de variables evidencias E m , y e es un evento ob¬ 
servado particular; Y denotarâ las variables no evidencia Y l ..., 7, (a veces llamadas 
variables ocultas). Asi, el conjunto compléta de variables es X = {X} U E U Y. Una 
cuestion tipica pide la distribucion de probabilidad a posteriori P(X|e) 6 . 


6 Asumiremos que la variable pregunta no esta entre las variables evidencia; de serlo, entonces la distribu¬ 
cion posteriori de X simplemente darâ 1 al valor observado. Por simplicidad, también hemos asumido que 
la pregunta es exactamente una sola variable. Nuestro algoritmo puede extenderse fâcilmente para manejar 
preguntas conjuntas sobre varias variables. 
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En la red del robo, podemos observar el evento en el que JolmLlama=cierto y 
MaryLlama=cierto. Podrfamos entonces preguntarnos por, digamos, la probabilidad de 
que haya ocurrido un robo: 

P{Robo\JohnLlama = cierto, MaryLlama = cierto) =(0,284, 0,716) 

En esta seccion discutiremos los algoritmos exactos para la computaciôn de probabili- 
dades posteriori y estimaremos la complejidad de esta tarea. Résulta que el caso gene¬ 
ral es intratable, asf que la Seccion 14.5 trata métodos para inferencia aproximada. 

Inferencia por enumeraciôn 

El Capitulo 13 explicô que cualquier probabilidad condicionada puede computarse su- 
mando términos de la distribuciôn conjunta compléta. Mas especfficamente, una pre- 
gunta P(X|e) puede responderse utilizando la Ecuaciôn (13.6), que repetimos aquf por 
conveniencia: 

P(X]e) = aP(X, e) = aV P(X, e, y) 

y 

Ahora, una red bayesiana proporciona una representaciôn compléta de la distribuciôn 
conjunta compléta. Mas concretamente, la Ecuaciôn (14.1) muestra que los términos P(x, 
e, y) de la distribuciôn conjunta pueden escribirse como productos de probabilidades con- 
dicionadas de la red. Asf, una pregunta puede responderse utilizando una red bayesia¬ 
na computando sumas de productos de probabilidades condicionadas de la red. 

En la Figura 13.4, un algoritmo, Preguntar-Contar-Conjunta, se propuso para 
inferencia por enumeraciôn a partir de la distribuciôn conjunta compléta. El algorit¬ 
mo toma como entrada una distribuciôn conjunta compléta P y busca allf valores. Es 
un problema sencillo modifie ar el algoritmo para que tome como entrada una red ba¬ 
yesiana rb y «busqué» entradas conjuntas multiplicando los correspondientes datos de 
las TPCs de la rb. 

Considéré la pregunta P(Robo\JohnLlama — cierto, MaryLlama = cierto). Las va¬ 
riables ocultas para esta pregunta son Terremoto y Alarma. De la Ecuaciôn (13.6), uti¬ 
lizando las letras iniciales de las variables para acortar las expresiones, tenemos 7 

P(B\j, ni) = a P (B,j, ffl) = aXS P (B, e, a,j, ni) 

e a 

La semântica de las redes bayesianas (Ecuaciôn 14.1) nos dio entonces una expresiôn 
en términos de las entradas de la TPC. Por simplicidad, haremos esto solo para 
Robo=cierto\ 

P(b\j, m) = aZI P(b)P(e)P(a\b, e)P(j\a)P(m\a) 

e a 

Para computar esta expresiôn, tenemos que sumar cuatro términos, cada uno calculado 
como la multiplicaciôn de cinco numéros. En el peor caso, cuando tengamos que sumar 


7 Una expresiôn tal como )y e P(a, e) significa sumarP(A=a,£'=e) para todos los posibles valores de e. Hay 
una ambigüedad y es que P(e) se utiliza para indicar tanto P(E=cierto) y P(E=e), pero el significado que 
se pretende deberia estar claro del contexto; en particular, en el contexto de la suma se pretende el ültimo 
significado. 
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casi todas las variables, la complejidad del algoritmo para una red con n variables boo- 
leanas es 0(n2"). 

Puede obtenerse una mejora considerando la siguiente observacion simple: el término 
P{b ) es una constante y puede moverse fuera de las sumatorias en a y e, y el término 
P(e) puede moverse fuera de la sumatoria en a. Asf, tenemos: 

V(b\j, m) = a P(b) X P(e) X P(a\b, e)P(j\a)P(m\a ) (14.3) 

e a 

Esta expresion puede evaluarse ciclando a través de las variables por orden, multiplicando 
las entradas de la TPC sobre la marcha. Para cada sumatoria, también necesitamos ci- 
clar en los valores posibles de las variables. La estructura de esta computaciôn se mues- 
tra en la Figura 14.8. Utilizando los nümeros de la Figura 14.2, obtenemos P{b\j,m ) = 
a X 0,00059224. El câlculo correspondiente para —i b produce a X 0,0014919; asf: 

V(B\j, m) = «(0,00059224, 0,0014919) « (0,284, 0,716) 

Esto es, el riesgo de un robo, dadas las llamadas de los dos vecinos, esta alrededor del 
28 por ciento. 

El proceso de evaluacion para la expresion de laEcuacion (14.3) se muestra como una 
expresion arborea en la Figura 14.8. El algoritmo Preguntar-por-Enumeraciôn de la Fi¬ 
gura 14.9 évalua esos ârboles usando la exploraciôn recursiva de primero-en-profundidad. 
De este modo, la complejidad del espacio de Preguntar-por-Enumeraciôn es solo line- 
al en el numéro de variables (efectivamente, el algoritmo suma con la distribucion conjunta 
compléta sin jamâs constmirla explfcitamente). Desafortunadamente, su complejidad en 
tiempo para una red con n variables booleanas es siempre 0(2"), preferible al 0(/?2") del 
método sencillo descrito anteriormente, pero todavfa bastante desastroso. Una cosa a 
apuntar sobre el ârbol de la Figura 14.8 es que construye explfcitamente las subexpresio- 
nes repetidas que son evaluadas por el algoritmo. Los productos P(/j a)V(m\a) y 



Figura 14.8 La estructura de la expresion que se indica en la Ecuacion (14.3). La evaluacion pro¬ 
cédé de arriba-abajo, multiplicando los valores que estân a lo largo de cada camino y sumando en 
los nodos «+». Notese la repeticiôn de los caminos para j y m. 
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ELIMINACIÔN DE 
VARIABLES 


FACTORES 


funciôn Preguntar-por-Enumeracion(X, e, rb) devuelve una distribucion sobre X 
entradas: X, la variable pregunta 

e, los valores observados de las variables E 

rb, una red bayesiana con variables {X)UEUY / * Y = variables ocultas * / 

Q( A') <— una distribucion sobre X, inicialmente esta vacia 
para cada valor x t de X hacer 
ampliar e con el valor x t de X 
Q (x t ) ENUMERAR-TODO(VARS[rft], e) 

devolver Normalizar (Q(X)) 


funciôn Enumerar-Todo (vars, e) devuelve un numéro real 
si VACio?(va; .y) entonces devuelve 1 ,0 
Y <r- PrimeroOws) 
si Y tiene valor y en e 

entonces devolver P(y\padres(Y)) X Contar-Todo(Resto(vû!«), e) 
si no devolver X v P(y\padres(Y)) X CoNTAR-ToDo(RESTo(vari), e^) 
donde e v es igual a e ampliado con Y = y 


Figura 14.9 El algoritmo de enumeraciôn para responder a preguntas en redes bayesianas. 


P(/| — \à)V(m\ — iûi) son calculados dos veces, una vez para cada valor de e. La siguiente sec- 
ciôn describe un método general que évita esos câlculos desaprovechados. 

El algoritmo de eliminaciôn de variables 

El algoritmo de enumeraciôn puede mejorarse sustancialmente eliminando los câlculos 
repetidos del tipo que se ilustraron en la Figura 14.8. La idea es sencilla: hacer los câlculos 
una sola vez y salvar el resultado para usarlo mâs tarde. Esto es un tipo de programa- 
ciôn dinâmica. Hay distintas versiones para esta aproximaciôn; presentamos el algorit¬ 
mo de eliminaciôn de variables, que es el mâs sencillo. La eliminaciôn de variables 
funciona evaluando expresiones como la de la Ecuaciôn (14.3) en un orden de derecha 
a izquierda (es decir, arriba-abajo en la Figura 14.8). Los resultados intermedios se al- 
macenan, y las sumatorias en cada variable se hacen solo para aquellas porciones de la 
expresiôn que dependen de la variable. 

Ilustremos este proceso para la red del robo. Evaluamos la expresiôn 

P(B\j, m) = a P(fl) Z P(e) 1 P(a|fi, e)P(j\a)P(m\a) 

v —v— ' e K —v —' a K - v -- v - J 

B E A J M 

Nôtese que hemos comentado cada parte de la expresiôn con el nombre de la variable 
asociada; estas partes se llaman factores. Los pasos son como sigue: 

• El factor para M, P(m\a), no requiere sumar en M (ya que el valor de M estâ ya fi- 
jado). Almacenamos la probabilidad, dado cada valor de a, en un vector de dos ele- 

men,os ' P(m\a) \ 

'" W 

(f M significa que M fue utilizado para obtener f.) 
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• Anâlogamente, almacenamos el factor para / como el vector de dos elemento f ,(A). 

• El factor para A es P(<a r | J S, e), que sera una matriz f, (A , B, E) de dimension 2X2X2. 

• Ahora debemos sumar en A el producto de estas très factores. Esto nos darâ una 
matriz 2X2 cuyos indices comprenden solo aB y aE. Ponemos una barra sobre 
A en el nombre de la matriz para indicar que se ha sumado en A: 

e) = Z t >, B, E) X f/fl) X f» 

= f/a, B . E) X f/fl) X f M (ct) 

+ B, E ) X f/ \A) X f M (-io) 

El proceso de multiplicaciôn utilizado aqui se llama producto punto a punto y 
se explicarâ dentro de poco. 

• Procesamos E del mismo modo: sumamos en E el producto de f e {E) y f AJM (B, E): 

W«) = W x w^. <0 

1e ) x f âjm(B, —lé) 

• Ahora podemos calcular la respuesta simplemente multiplicando el factor para B 
(e.d., f/ B) = P(B )) por la matriz acumulada f EÂ , M (B)\ 

P (B[j, m) = <xf B (B)Xf EÂJM (B) 

El Ejercicio 14.7(a) le pide que compruebe que este proceso produce la respuesta co- 
rrecta. 

Examinando esta secuencia de pasos, vemos que hay dos operaciones computacio- 
nales necesarias: el producto punto a punto de un par de factores, y la sumatoria en una 
variable del producto de los factores. 

El producto punto a punto no es una multiplicaciôn matricial, ni tampoco la multi¬ 
plicaciôn elemento por elemento. El producto punto a punto de dos factores f! y f 2 pro¬ 
duce un nuevo factor f cuyas variables son la union de las variables de f y de f 2 . Suponga 
que los dos factores que tienen las variables Y v .., Y k en comün. Entonces tenemos 

f(Aj ...Xj,Y l ...Y k ,Z l ... Z,) = fj(Xj ...Xj, Y { ... Y k ) f 2 (E r . .Y k , Z x ... Z,) 

Si todas las variables son binarias, entonces f y f 2 tienen 2 J+k y 2 k+l entradas respecti- 
vamente, y el producto punto a punto tiene 2 i+k+I entradas. Por ejemplo, dados dos fac¬ 
tores f[(A,5) y f 2 (B,C) con las distribuciones de probabilidad que se muestran abajo, el 
producto punto a punto f t X f 2 viene dado por f 3 (A, B, C): 
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Hacer la sumatoria en una variable a partir del producto de factores es también una 
computaciôn bastante sencilla. El ünico truco es darse cuenta de que cualquier factor 
que no dependa de la variable que va a ser sumada puede excluirse de la sumatoria. Por 
ejemplo, 

Z, Ue) X f A (A, B . e)X f/A) X fJA) = f/A) X fJA) X Z, W X f/A, B, e ) 

Ahora se calcula el producto punto a punto que esta en la sumatoria, y se suma en la va¬ 
riable a partir de la matriz résultante. 

f/A) X f M (A) X £„ f E (e) X f/A, B, e ) = f/A) X f w (A) X f^(A, B) 

Notese que las matrices no se multiplican hasta que necesitemos sumar una variable del 
producto acumulado. En ese punto, multiplicamos aquellas matrices que incluyan a la 
variable que va a ser sumada. Dadas las rutinas para el producto punto a punto y para la 
sumatoria, el algoritmo de eliminacion de variables propiamente dicho puede escribir- 
se de forma bastante sencilla, como se muestra en la Figura 14.10. 

Consideremos una pregunta mas: P{JohnLlama\Robo—cierto). Como siempre, el pri¬ 
mer paso es escribir la sumatoria compléta como sumatorias anidadas: 

P{j\b) = a P (b) T P{e) X V(a\b, e)P(j\a ) TP(m\a) 

e a m 

Si evaluamos esta expresion de derecha a izquierda, nos damos cuenta de una cosa in- 
teresante: P(m\a) es igual a 1 por definiciôn! Por lo tanto, no hubo necesidad de 

incluirlo en primer lugar; la variable M es irrelevante para esta pregunta. Otro modo 
de decir esto es que el resultado de la pregunta P{JolmLlama\Robo—cierto) no cam¬ 
bia si quitamos totalmente a MaryLLama de la red. En general, podemos quitar cual¬ 
quier nodo hoja que no es una variable pregunta o una variable evidencia. Después de 
quitarla, quizâs haya algunos nodos hojas mas, y éstas también pueden ser irrelevan¬ 
tes. Continuando este proceso, al final encontramos que cada variable que no es un 
ancestro de la variable pregunta o variable evidencia es irrelevante para la pregun¬ 
ta. Un algoritmo de eliminacion de variables puede asi quitar todas aquellas variables 
antes de evaluar la pregunta. 


funciôn Preguntar-por-Eliminaciôn(X, e, rb ) devuelve una distribucion sobre X 
entradas: X , la variable pregunta 

e, evidencia establecida como un evento 

rb, una red bayesiana que especifique una distribucion conjunta PlX,..., X n ) 

factores <— [ ]; vais <— Invertir(Vars [;•/?]) 
para cada var en vai s hacer 

factores <— [Crear-FactorOw, e)| factores] 

si var es una variable oculta entonces factores <— Suma(v<7/; factores) 
devolver Normalizar(Producto-Punto-a-Punto {factores)) 


Figura 14.10 El algoritmo de eliminacion de variables para responder a preguntas en redes ba- 
yesianas. 
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CONEXIÔN SIMPLE 
P0LIÂRB0LES 



GRUPOS 

ÂRBOL DE UNIONES 


La complejidad de la inferencia exacta 

Hemos indicado que la eliminacion de variables es mas eficiente que la enumeraciôn por- 
que évita câlculos repetidos (aparté de lo de «tirar» las variables irrelevantes). Los re- 
querimientos de tiempo y espacio de la eliminacion de variables estân dominados por 
el tamano del factor mas grande que se construya durante el funcionamiento del algo- 
ritmo. Este, a su vez, esta determinado por el orden de eliminacion de variables y por la 
estructura de la red. 

La red del robo de la Figura 14.2 pertenece a la familia de redes en las que hay a lo 
sumo un camino no dirigido entre dos nodos cualesquiera de la red. Estas se llaman re¬ 
des con conexiôn simple o poliârboles, y tienen en particular una buena propiedad: La 
complejidad en tiempo y espacio de la inferencia exacta en poliârboles es lineal en el 
tamano de la red. Aqui, el tamano esta definido con el numéro de entradas de la TPC; 
si el nümero de padres de cada nodo esta acotado por una constante, entonces la com¬ 
plejidad también sera lineal en el nümero de nodos. Estos resultados se verifican para 
cualquier ordenaciôn consistente con la ordenaciôn topolôgica de la red (Ejercicio 14.7). 

Para redes con conexiôn multiple, como la de la Figura 14.1 l(a), la eliminacion de 
variables puede tener complejidad exponencial en tiempo y espacio en el peor de los ca- 
sos, incluso cuando el nümero de padres por nodo esté acotado. Esto no es sorprenden- 
te cuando uno considéra que, va que incluye a la inferencia de la lôgica proposicional 
como un caso particular, la inferencia en redes bayesianas es NP-duro. De hecho, pue¬ 
de demostrarse (Ejercicio 14.8) que el problema es tan duro como el del câlculo del nu¬ 
méro de asignaciones satisfactorias para una formula lôgica proposicional. Esto significa 
que es #P-duro («nümero-P duro»), es decir, estrictamente mas duro que los problemas 
NP-completos. 

Hay una conexiôn directa entre la complejidad de la inferencia de redes bayesianas 
y la complejidad de los problemas de satisfacciôn de restricciones (PSRs). Como ana- 
lizamos en el Capitulo 5, la dificultad de resolver un PSR esta relacionado a como de 
«parecido a un ârbol» es su grafo de restricciones. Medidas como el ancho del hiper- 
ârbol, que acota la complejidad de la resoluciôn de un PSR, puede también aplicarse 
directamente a redes bayesianas. Por otra parte, el algoritmo de eliminacion de varia¬ 
bles puede generalizarse para resolver PSRs ademâs de las redes bayesianas. 


Algoritmos basados en grupos 

El algoritmo de eliminacion de variables es sencillo y eficiente para responder a pre- 
guntas particulares. Si queremos computar probabilidades posteriores para todas las 
variables de una red puede, sin embargo, ser menos eficiente. Por ejemplo, en una red 
poliârbol, necesitarfa para informar de ()(n) preguntas que cuesten O(n) cada una, un 
tiempo total del orden 0(n 2 ). Utilizando el algoritmo basado en grupos (también co- 
nocido como algoritmos basados en àrboles de uniones), el tiempo puede reducirse a 
0{n). Por esta razôn, estos algoritmos tienen un uso muy extendido en herramientas co- 
merciales de redes bayesianas. 

La idea bâsica del agrupamiento (creaciôn de grupos) es unir nodos particulares de 
la red para crear nodos de grupos de tal modo que la red résultante sea un poliârbol. Por 
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Figura 14.11 (a) Una red mültiplemente conectada con las tablas de probabilidad condicional. 

(b) Un agrupamiento équivalente a la red mültiplemente conectada. 


ejemplo, la red con conexion multiple de la Figura 14.1 l(a) puede convertirse en un po- 
liârbol uniendo los nodos Aspersor y Lluvia en un nodo-grupo denominado Aspersor + 
Lluvia, como muestra la Figura 14.1 l(b). Los dos nodos booleanos son sustituidos por 
un meganodo que toma cuatro posibles valores: W, VF, FV y FF. El meganodo solo 
tiene un padre, la variable booleana Nublado, por lo que hay dos casos para el condi- 
cionamiento. 

Una vez que la red esta en forma de poliârbol, se aplica un algoritmo de inferencia 
de proposito especifico. Esencialmente, el algoritmo es un tipo de propagacion con res- 
tricciones (Capitulo 5) donde las restricciones garantizan que los grupos vecinos coinciden 
en la probabilidad posteriori de cualquier variable que tengan en comün. Con un com- 
puto meticuloso, este algoritmo es capaz de calcular probabilidades posteriores para to- 
dos los nodos no-evidencia de la red en tiempo 0(n), donde n es ahora el tamano de la 
red modificada. Sin embargo, no desaparece el que el problema siga siendo NP-duro: si 
una red requiere tiempo y espacio exponencial con la eliminaciôn de variables, enfonces 
las TPCs en la red de grupos requerirâ tiempo y espacio exponencial para construirlo. 


14.5 Inferencia aproximada en redes bayesianas 


Dada la intratabilidad de la inferencia exacta en grandes redes con conexion multiple 
es imprescindible considerar métodos de inferencia aproximados. Esta seccion descri- 
monte carlo be algoritmos de muestreo aleatorio, también llamados algoritmos de Monte Carlo, que 

proporcionan respuestas aproximadas cuya précision dépende del numéro de muestras 
generadas. En los ültimos anos, los algoritmos Monte Carlo han llegado a ser amplia- 
mente utilizados en informâtica para estimar cantidades que son dificiles de calcular 
de una forma exacta. Por ejemplo, el algoritmo de enfriamiento simulado descrito en 
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el Capftulo 4 es un método de Monte Carlo para problemas de optimizaciôn. En esta 
secciôn, estamos interesados en el muestreo aplicado al câlculo de probabilidades pos- 
teriores. Describimos dos familias de algoritmos: el muestreo directo y el muestreo me- 
diante cadenas de Markov. En las notas del final del capltulo se mencionarân otras dos 
aproximaciones: los métodos variacionales y la propagacion ciclica. 


Métodos de muestreo directo 

El elemento principal en cualquier algoritmo de muestreo es la generacion de muestras 
a partir de una distribucion de probabilidad conocida. Por ejemplo, se puede pensar en 
una moneda no trucada como una variable aleatoria Moneda con los valores (cara ,cruz) 
y una distribucion priori P {Moneda) = (0,5, 0,5). Muestrear a partir de esta distribucion 
es exactamente igual al lanzamiento de la moneda: devolverâ cara con probabilidad 0,5 
y con probabilidad 0,5 devolverâ cruz. Dada una sérié de numéros aleatorios en el in- 
tervalo [0,1], muestrear cualquier distribucion de una sola variable es un problema sen- 
cillo. (Véase Ejercicio 14.9.) 

La clase mas sencilla de procedimientos de muestreo aleatorio para redes bayesia- 
nas généra sucesos a partir de una red que no tenga ninguna evidencia asociada. La idea 
es muestrear cada variable por turno, en orden topolôgico. La distribucion de probabi¬ 
lidad usada para obtener el valor muestreado esta condicionada a los valores que ya se 
han asignado a los padres de dicha variable. Este algoritmo se muestra en la Figura 14.12. 
Podemos ilustrar su funcionamiento con la red de la Figura 14.11 (a), suponiendo el or¬ 
den [Nublado, Aspersor, Lluvia, HierbaHûmeda ]: 

1. Muestreo a partir de P {Nublado) = (0,5, 0,5); suponga que esto devuelve verdad. 

2. Muestreo a partir de P(Aspersor\Nubiado = verdad) = (0,1, 0,9); suponga que 
devuelve falso. 

3. Muestreo a partir de P (Lluvia\Nublado = verdad) = (0,2, 0,8); suponga que de¬ 
vuelve verdad. 

4. Muestreo a partir de P(HierbaHumeda \ Aspersor = falso, Lluvia =verdad) = 
(0,9, 0,1); suponga que devuelve verdad. 

En este caso, el Muestreo-por-Priori devuelve el suceso [verdad, falso, verdad, verdad\. 

Es fâcil ver que el Muestreo-por-Priori généra muestras a partir de la distribucion 
conjunta a priori determinada por la red. Primera, sea S MP (x v .., x n ) la probabilidad de 
que un suceso particular esté generado por el algoritmo Muestreo-por-Priori. Solo con 
mirar el proceso de muestreo, tenemos que 

n 

S MP {x i... x„) = Il P(x\padres(X)) 

i = 1 

ya que cada paso del muestreo dépende solo de los valores de los padres. Esta expresiôn 
deberia resultar familiar, puesto que es también la probabilidad del suceso segün la re- 
presentacion de la distribucion conjunta de la red bayesiana, como se indica en la Ecua- 
cion (14.1). Esto es, tenemos que 

S M p(x i-..x n ) = P(x 1 ...x n ) 

Este simple resultado hace muy fâcil responder a preguntas utilizando muestras. 


RAZONAMIENTO PROBABIL1STA 583 


CONSISTENTE 


MUESTREO POR 
RECHAZO 


funciôn M uestreo-por-Priqr \(rb) devuelve un suceso muestreado a partir de una a priori 
especificada por rb. 

entradas: rb, una red bayesiana especificando la distribuciôn conjunta P(X,..., X n ) 

x <— un suceso con n elementos 
desde i = 1 hasta n hacer 
X- <— una muestra aleatoria de Y(X\padres(X i )) 

devolver x 


Figura 14.12 Algoritmo de muestreo que généra sucesos a partir de una red bayesiana. 


En cualquier algoritmo de muestreo, las respuestas se calculan contando las mues- 
tras que se hayan generado. Suponga que hay N muestras en total, y sea N(x v .., x n ) la 
frecuencia del suceso particular x v .., x n . Esperamos que esta frecuencia converja, en el 
limite, a su valor esperado de acuerdo con la probabilidad de muestreo: 

N mp (x, ...,x) 

i™- N - = Smp ^ Xi "' ,Xn) = jP(Xl "'’ Xn) ( 14-4) 

Por ejemplo, considéré el suceso producido anteriormente: [verdad,falso, verdad, ver- 
dad\. La probabilidad de muestreo para este suceso es: 

S MP (verdad,faIso, verdad, verdad) = 0,5 X 0,9 X 0,8 X 0,9 = 0,324. 

Asi, en el limite de N grandes, esperamos que el 32,4 por ciento de las muestras sean 
este suceso. 

En lo que sigue, cada vez que utilicemos una igualdad aproximada («~») lo inter- 
pretaremos exactamente en este sentido (que la probabilidad estimada se convierta en 
exacta en el limite de grandes muestras). Tal estimaciôn se llama consistente. Por ejem¬ 
plo, se puede producir una estimaciôn consistente de la probabilidad de cualquier suce¬ 
so que se especifique parcialmente x v .., x m con m < n, como sigue: 

P(x v •xJ ~ N mp ( X[ . .., x n )/N (14.5) 

Esto es, la probabilidad del suceso puede estimarse como la fracciôn de todos los suce¬ 
sos completos generados por el proceso de muestreo que coinciden con el suceso que 
se especificô parcialmente. Por ejemplo, si generamos 1.000 muestras a partir de la red 
del aspersor, y 511 de ellas ticncn Lluvia = verdad, enfonces la probabilidad estimada 
de llover, que se escribe como P (Lluvia = verdad), es 0,511. 


Muestreo por rechazo en redes bayesianas 

El muestreo por rechazo es un método general para generar muestras a partir de una 
distribuciôn dificil de muestrear utilizando una distribuciôn que sea fâcil de mues- 
trear. En su forma mas simple, puede usarse para calcular probabilidades condiciona- 
das, esto es, para determinar P(X|e). El algoritmo del Muestreo-por-Rechazo se 
muestra en la Figura 14.13. Primero, généra muestras a partir de la distribuciôn priori 
determinada por la red. Después, rechaza todas aquellas que no se correspondan con 







584 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


funciôn Muestreo-por-Rechazo(X, e, rb, N) devuelve una estimacion de P(X\c) 
entradas: X, la variable pregunta 

e, evidencia establecida como un evento 
rb , una red bayesiana 
N, el numéro total de muestras a generar 
variables locales: N, un vector contador sobre X, inicialmente a cero 

desde j = 1 hasta N hacer 

x <— Muestreo-por-Priori(/- 6) 
si x es consistente con e entonces 
N [.y] <— N[.y] + 1 donde x es el valor de X en x 
devolver Normalizar(N[X]) 


Figura 14.13 El algoritmo de muestreo por rechazo para responder preguntas con evidencia en 
una red bayesiana. 


la evidencia. Finalmente, la estimacion P(X = x|e) se obtiene contando la frecuencia 
con que ocurre X = x en las muestras que queden. 

Sea P(X|e) la distribucion estimada que devuelve el algoritmo. A partir de la defi- 
nicion del algoritmo, tenemos que: 

- . N MP (X, e) 

P(A|el = a N mp (X, e) = “ P 

De la Ecuaciôn (14.5), ésta se convierte en 

, . P(X, e) 

«■«O “ = p < x \‘> 

Esto es, el muestreo por rechazo généra una estimacion consistente de la auténtica pro- 
babilidad. 

Continuando con nuestro ejemplo de la Figura 14.1 l(a), supongamos que queremos 
estimar P(Lluvia\Aspersor = verdad), utilizando 100 muestras. De las 100 que genera- 
mos, suponga que 73 tienen Aspersor = falso y son rechazadas, mientras que 27 tienen 
Aspersor = verdad ; de las 27, ocho tienen Lluvia = verdad y 19 tienen Lluvia = falso. 
Por lo tanto, 

P(Lluvia\Aspersor = verdad) ~ Normalizar((8, 19)) = (0,296, 0,704) 

La respuesta verdadera es (0,3, 0,7). Cuantas mas muestras se acumulen, la estimacion 
convergera a la respuesta verdadera. La desviacion estândar del error de cada probabi- 
lidad sera proporcional a 1 /fri, donde n es el nümero de muestras utilizadas en la esti- 
maciôn. 

El mayor problema con el muestreo por rechazo es que jrechaza demasiadas mues¬ 
tras! El porcentaje de muestras consistentes con la evidencia e desciende exponencial- 
mente conforme crece el nümero de variables de evidencia, por lo que el procedimiento 
es simplemente inutilizable para problemas complejos. 

Nôtese que el muestreo por rechazo es muy similar a la estimacion directa de proba- 
bilidades condicionadas a partir del mundo real. Por ejemplo, para estimar P(Lluvia\Cielo- 






RAZONAMIENTO PROBABIL1STA 585 


PONDERACIÔN DE LA 
VEROSIMILITUD 


RojoDeNoche = verdad), simplemente puede contar con qué frecuencia llueve después de 
haber observado un cielo rojo la noche anterior, ignorando aquellas noches en las que el 
cielo no es rojo. (Aqui, el mundo mismo interpréta el papel del algoritmo de generaciôn 
de muestras.) Obviamente, esto podrfa tardar mucho tiempo si rara vez el cielo esta rojo 
y esa es la debilidad del muestreo por rechazo. 

Ponderaciôn de la verosimilitud 

La ponderaciôn de la verosimilitud évita la ineficiencia del muestreo de rechazo ge- 
nerando ünicamente sucesos que sean consistentes con la evidencia e. Comenzamos con 
la descripciôn de como funciona el algoritmo; después mostraremos que funciona co- 
rrectamente, esto es, que généra estimaciones de probabilidad consistentes. 

PonderaciÔN-Verosimilitud (véase Figura 14.14) fija los valores para las variables 
de evidencia E y solo muestrea las variables restantes, A e Y. Esto garantiza que cada 
suceso generado es consistente con la evidencia. Sin embargo, no todos los sucesos son 
iguales. Antes de ajustar la suma en la distribucion de la variable pregunta, cada suce¬ 
so se pondéra por la verosimilitud de que el suceso concuerde con la evidencia, que se 
calcula exactamente como el producto de las probabilidades condicionadas de cada va¬ 
riable evidencia (dados sus padres). Intuitivamente, a los sucesos en los que la eviden¬ 
cia présente los hace menos creibles se les deberian dar menos peso. 

Apliquemos el algoritmo sobre la red que se muestra en la Figura 14.1 l(a), con la pre¬ 
gunta V{Lluvia\Aspersor — verdad, HierbaHûmeda — verdad). El procedimiento funciona 
como sigue: primera, el peso de w se establece a 1,0. Después se généra un suceso: 

1. Muestreo a partir de P (Nublado) = (0,5, 0,5); suponga que esto devuelve verdad. 

2. Aspersor es una variable de evidencia con valor verdad. Por lo tanto, estable- 
cemos que 

w <— w X P(Aspersor = verdad\Nublado = verdad) = 0,1 

3. Muestreo a partir de P(Lluvia\NubIado = verdad) = (0,8, 0,2); suponga que de¬ 
vuelve verdad. 

4. HierbaHûmeda es una variable de evidencia con valor verdad. Por lo tanto, es- 
tablecemos que 

w <— w X P {HierbaHûmeda = verdad\Aspersor = verdad, Lluvia = verdad) 

= 0,099 

Aqui Muestra-Ponderada devuelve el suceso [verdad, verdad, verdad, verdad] con peso 
0,099, y esto se ajusta con Lluvia = verdad. El peso es pequeno porque el suceso des- 
cribe un dia nublado, lo que hace menos creible que el aspersor esté encendido. 

Para entender por qué la ponderaciôn de la verosimilitud funciona, empezamos exa- 
minando la distribucion de muestreo S MW para Muestreo-Ponderado 8 . Recuerde que 
las variables de evidencia E estân fijadas a los valores e. Llamaremos a las demâs va- 


8 Si bien lo correcto séria indicar dicha funcion como S MP para referirnos a Muestreo Ponderado, se utiliza- 
râ la notacion S MW , pues la notacion S MP ya se utilizô para referirnos al Muestreo por Priori (véase Ecuacion 
14.4). (Nota del traductor.) 




586 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


funciôn Ponderaciôn-Verosimilitud(X, e, rb, N) devuelve una estimacion de P(X\c) 
entradas: X, la variable pregunta 

e, evidencia establecida como un evento 

rb , una red bayesiana 

N, el numéro total de muestras a general - 

variables locales: W, un vector de contadores (pesos) para X. inicialmente nulos. 

desde j = 1 hasta N hacer 

x, w <— Muestra-Ponderada(/ - 6) 

W[.y] <— W[.v] + w donde x es el valor de X en x 
devolver Normalizar(W[X]) 


funciôn Muestra-Ponderada(/ - ô, e) devuelve un suceso y un peso 

x <— un suceso con n elementos; w <— 1 
desde i = 1 hasta n hacer 
si X. tiene un valor x i en e 

entonces w <— w X P(X j = x t \ paclresiX)) 
si no X[ <— una muestra aleatoria de V(X \padresiX t )) 
devolver x, w 


Figura 14.14 El algoritmo de ponderaciôn de la verosimilitud para inferencia en redes bayesianas. 


riables Z, esto es, Z = \X) U Y. El algoritmo obtiene una muestra de cada variable en 
Z dados los valores de su padre: 

S MP (z, e) =Y[P(z i \padres(Z l )) (14.6) 

i = t 

Nôtese que Padres{Z ; ) pueden incluir tanto variables ocultas como variables de evi¬ 

dencia. A diferencia de la distribucion a priori P{ z), la distribuciôn S Mw prcsta algu- 

na atencion a la evidencia: los valores muestreados para cada variable Z ( estarân 
influenciados por la evidencia que esté entre los ancestros de Z ; . Por otro lado, S MW 
pone menos atencion a la evidencia de lo que lo hace la distribucion a posteriori P(z|e), 
ya que los valores muestreados para cada Z ; ignoran la evidencia que se encuentre en¬ 
tre los no-ancestros de Z, * i * * * * * * * 9 . 

El peso de verosimilitud w compensa la diferencia entre la distribuciôn de muestreo 
real y la deseada. El peso para una muestra dada x, formada por z y e, es el producto de 
probabilidades de cada variable de evidencia dados sus padres (donde algunos o todos 
pueden estar entre los Z ; ): 

m 

w(z, e) = X\P{e,\padres{EÏÏ (14.7) 

i = 1 


9 Idealmente, nos gustaria usar una distribucion de muestreo igual a la auténtica a posteriori P(z\ e), para te- 
ner en cuenta a toda la evidencia. Sin embargo, esto no puede hacerse eficientemente. Si se pudiera, podri- 
amos aproximar la probabilidad deseada a una précision arbitraria con un numéro polinomial de muestras. 
Se puede demostrar que tal esquema de aproximacion en tiempo polinomial no puede existir. 
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Multiplicande» las ecuaciones (14.6) y (14.7), vemos que la probabilidad ponderada de 
una muestra tiene una forma particularmente conveniente: 

/ m 

■W z ' e)w(z, e) = Y[P(y i \padres(Y i ))l[P(e i \padres(E 1 )) = P(y|e), (14.8) 

1=1 i =1 

ya que los dos productos utilizan todas las variables de la red, lo que nos permite usar 
la Ecuacion (14.1) de la probabilidad conjunta. 

Ahora es fâcil demostrar que las estimaciones obtenidas por la ponderacion de la ve- 
rosimilitud son consistentes. Para cualquier valor particular x de X, la probabilidad a pos¬ 
teriori estimada puede calcularse como sigue: 

P(x|e) = a X N MW (x, y, e)w(x, y, e) por Ponderaciôn-Verosimilitud 

y 

~ a X S M Jx, y, e)w(x, y, e) para un N grande 

y 

~ a' X P(x, y, e) por la Ecuacion (14.8) 

y 

~ a' P{x, e) = P(x|e) 

Asf, la ponderacion de la verosimilitud retorna estimaciones consistentes. 

Ya que la ponderacion de la verosimilitud utiliza todas las muestras generadas, pue¬ 
de ser mucho mas eficiente que el muestreo por rechazo. Adolecerâ, sin embargo, una 
degradacion en el rendimiento segün aumenten el nümero de variables de evidencia. Pues- 
to que la mayoria de las muestras tendrân pesos muy bajos, la estimaciôn ponderada es- 
tarâ controlada mas por el pequemsimo porcentaje de muestras que concuerden con la 
evidencia que por la verosimilitud de dicha evidencia aunque ésta sea infinitésimal. El 
problema se agrava si las variables de evidencia aparecen las ültimas en la ordenacion 
de variables, porque enfonces las muestras serân simulaciones que tienen poca simili- 
tud con la realidad sugerida por la evidencia. 


MONTE-CARLO PARA 
CADENAS DE MARKOV 


Inferencia por simulaciôn en cadenas de Markov 

En esta seccion, explicaremos el algoritmo de Monte Carlo para cadenas de Markov 
(MCCM) para inferencia en redes Bayesianas. Primero describiremos lo que el algorit¬ 
mo hace, después explicaremos por qué funciona y por qué tiene un nombre tan com- 
plicado. 


El algoritmo MCCM 

A diferencia de otros algoritmos de muestreo, que generan cada suceso a partir de cero, 
MCCM généra cada suceso haciendo un cambio aleatorio en el suceso precedente. Es 
por lo tanto ütil pensar en la red como que esta en un estado actual concreto median- 
te la especificacion de un valor para cada variable. El siguiente estado se généra mues- 
treando de forma aleatoria un valor de una de las variables de no-evidencia X t , 
condicionada a los valores actuales de las variables en el manto de Markov de X r (Re- 
cuerde del Apartado 14.2 que el manto de Markov para una variable consta de sus pa- 
dres, sus hijos, y los padres de los hijos). El MCCM por tanto déambula de forma 
aleatoria alrededor del espacio de estados (el espacio de las posibles asignaciones com- 
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pletas) cambiando una variable en cada momento, pero manteniendo fijas la variables 
de evidencia. 

Considéré la pregunta P(Llueve\Aspersor = verdad, HierbaHûmeda = verdad) apli- 
cada a la red de la figura 14.1 l(a). Las variables de evidencia Aspersor y HierbaHûmeda 
se fijan a sus valores observados y las variables ocultas Nublado y Lluvia se inicializan de 
forma aleatoria (supongamos verdad y falso, respectivamente). Asf, el estado inicial es [ver¬ 
dad, verdad, falso, verdad ]. Ahora se llevan a cabo los siguientes pasos repetidamente: 

1. Se muestrea Nublado, dados los valores actuales de las variables de su manto 
de Markov: en este caso muestreamos a partir de P(Nublado\Aspersor = ver¬ 
dad, Lluvia = falso). (Dentro de poco, expondremos como calcular esta distri- 
buciôn). Supongamos que el resultado es Nublado = falso. Enfonces el nuevo 
estado actual es [ falso, verdad, falso, verdad], 

2. Se muestrea Lluvia, dados los valores actuales de las variables de su manto de 
Markov: en este caso muestreamos a partir de PiLluvia\Nuhlado = falso, Aspersor 
= verdad, HierbaHûmeda = verdad). Suponga que esto da Lluvia = verdad. El 
nuevo estado actual es | falso, verdad, verdad, verdad], 

Cada estado visitado durante este proceso es una muestra que contribuye a la estima¬ 
tion de la variable pregunta Lluvia. Si el proceso visita 20 estados en los que Lluvia es 
verdad y 60 estados donde Lluvia es falso, enfonces la respuesta a la cuestiôn es Nor- 
malizar((20, 60)) = (0,25, 0,75). El algoritmo compléta se muestra en la Figura 14.15. 


funciôn Preguntar-MCCM (X, e, rb, N) devuelve una estimation de P(X\t) 
entradas: N[X], un vector de contadores sobre X, inicialmente nulos 
Z, las variables no-evidencia de la rb 
x, el estado actual de la red, inicialmente copiado de e 
rb, una red bayesiana 
N, el numéro total de muestras a generar 

inicializar x con valores aleatorios para las variables de Z 
desde j = 1 hasta N hacer 
N [.v] <— N [a] + 1 donde x es el valor de X en x 

para cada Z, de Z hacer 

muestrear el valor de Z, en x a partir de P (Z]manto(Zf) dados los valores de Manto{Z ; ) en x 
devolver Normalizar(N[X]) 


Figura 14.15 El algoritmo MCCM para inferencia aproximada en redes bayesianas. 



Por qué funciona MCCM 

Mostraremos ahora que el MCCM devuelve estimaciones consistentes de las probabili- 
dades posteriores. El contenido de esta secciôn es bastante técnico, pero la argumenta¬ 
tion bâsica es sencilla: el proceso de muestreo tiende a un equilibrio dinâmico en el cual 
el porcentaje de ejecuciôn del tiempo empleado en cada estado es exactamente pro- 
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porcional a su probabilidad a posteriori. Esta sorprendente propiedad se deduce a par¬ 
tir de la probabilidad de transiciôn concreta con la que el proceso se mueve de un es- 
tado a otro, la cual esta definida como la distribucion condicionada de la variable que 
se esté muestreando dado su manto de Markov. 

Sea q(x —> x') la probabilidad de que el proceso haga una transiciôn del estado x al 
estado x'. Esta probabilidad de transiciôn define lo que se llama una cadena de Mar¬ 
kov del espacio de estados (las cadenas de Markov serân tratadas en profundidad en los 
capftulos 15 y 17). Ahora supongamos que realizamos una cadena de Markov de t pa- 
sos, y sea 77 ,(x) la probabilidad de que el sistema esté en el estado x en el instante t. Anâ- 
logamente, sea 77 , + ,(x') la probabilidad de estar en el estado x' en el momento t + 1. 
Dada 77 ,(x), podemos calcular 77 , + j(x') como una sumatoria, en todos los estados en los 
que el sistema podrfa estar en el instante t, de la probabilidad de estar en ese estado mul- 
tiplicada por la probabilidad de hacer una transiciôn al estado x': 

7f,+ l(x') = S -> x') 

X 

Diremos que la cadena ha alcanzado su distribucion estacionaria si 77 , = 77 f+1 . Lla- 
memos 77 a esta distribucion estacionaria; su ecuaciôn que la define es as! 

77 (x') = V vix)q(x —> x') para todo x' (14.9) 

X 

Bajo ciertos supuestos estândares referentes a la distribucion de probabilidad de transi¬ 
ciôn q 10 , hay exactamente una distribucion 77 que satisface esta ecuaciôn para cualquier 
q dada. 

La ecuaciôn (14.9) se puede leerse diciendo que si un estado se contempla como la 
situaciôn actual de una «poblaciôn», enfonces el «abandono» esperado de cada estado 
es igual a la «afluencia» esperada de todos los estados. Una manera lôgica para satisfa- 
cer esta relaciôn es que el flujo esperado entre cualquier par de estados sea el mismo en 
ambas direcciones. Esta es la propiedad de balance detallado: 

7r(x)q(x —> x') = TT(x')q(x' —» x) para todo x, x' (14.10) 

Podemos demostrar que el balance detallado implica estacionamiento simplemente su- 
mando en x la ecuaciôn (14.10). Tenemos que 

X 77<x)<?(x -> x') = X Tdx')q(*’ -A x) = 77(x') X <?(x -» x') = 77(x') 

XX X 

donde el ültimo paso se deduce porque esta garantizado que ocurra una transiciôn des- 
de x'. 

Ahora mostraremos que la probabilidad de transiciôn q(x —> x') definida en el paso 
de muestreo de Preguntar-CMMC satisface la ecuaciôn del balance detallado con una 
distribucion estacionaria igual a P(x|e), (la auténtica distribucion a posteriori de las va¬ 
riables ocultas). Haremos esto en dos pasos. Primero, definiremos una cadena de Mar¬ 
kov en la que cada variable es muestreada pero condicionada a los valores actuales de 
todas las demâs variables, y demostraremos que esto satisface el balance detallado. En- 


10 La cadena de Markov definida por q debe ser ergôdica; esto es, en esencia, que cada estado debe ser al- 
canzable desde cualquier otro, y no puede haber ciclos estrictamente periôdicos. 
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tonces, sencillamente observaremos que, para redes Bayesianas, hacer eso es igual a 
muestrear pero condicionando a las variables del manto de Markov ( véase Apartado 14.2). 

Sea X j la variable a muestrear, y sean X, todas las variables ocultas distintas de X r 
Sus valores en el estado actual son x, y xj. Si muestreamos un nuevo valor x', para X, pero 
condicionando a todas las demâs variables, incluida la evidencia, tenemos 

q(x -^x) = q({x t , xj) -A (x’, x f ) = P(x',. \x t , e) 

Esta probabilidad de transiciôn se llama muestreador * 11 de Gibbs y es una expresiôn par- 
ticularmente conveniente del MCCM. Ahora demostraremos que el muestreador de Gibbs 
verifica la condiciôn de balance detallado con la auténtica distribuciôn a posteriori : 

Tr(x)q(x -A x') = P(x|e)E(xJx:, e) = P {xi, xj|e)E(x'|x;, e) 

= P(x J x", e)P{x i | e)P(x,'| x“, e) (usando la régla de la cadena en el primer término) 
= P(x,\ x~, e)P(x', x“ | e ) (usando la régla de la cadena hacia atrâs) 

= 7r(x')( 7 (x'—> x) 

Como se dijo en el Apartado 14.2, una variable es independiente de todas las demâs va¬ 
riables dado su manto de Markov; asi, 

P{x jxj, e) = P{x'\manto{X)) 

donde manto(Xi) dénota a los valores de las variables del manto de Markov de X, 
MantoÇXj). Como se indica en el Ejercicio 14.10, la probabilidad de una variable dado 
su manto de Markov es proporcional a la probabilidad de la variable dados sus padres 
multiplicada por la probabilidad de cada hijo dados sus padres respectivos: 

P(x'\manto(X-)) = a P{x'\padres{Xi)) X n P{yjpadres(Yi)) (14.11) 

Yj G Hijos(Xj) 

Asi, para cambiar cada variable X , el nümero de multiplicaciones que se necesitan es 
igual al nümero de hijos de X ; . 

Hemos discutido aqui una variante sencilla del MCCM, a saber, el muestreador de 
Gibbs. En su forma mas general, el MCCM es un método potente para la computaciôn usan¬ 
do modelos probabilistas y se han desarrollado muchas variantes, incluido el algoritmo de 
enfriamiento simulado que se présenté en el Capitulo 4, los algoritmos de satisfactibilidad 
estocâstica del Capitulo 7, y el muestreador de Metrôpolis-Hastings del Capitulo 15. 


MUESTREADOR 
DE GIBBS 


14.6 Extension de la probabilidad a representaciones 
de primer orden 


En el Capitulo 8, explicamos las ventajas para la representaciôn de la lôgica de primer 
orden en comparaciôn con la lôgica proposicional. La lôgica de primer orden se desti- 


11 El término muestreador no existe en castellano y es una traducciôn demasiado literal del termino inglés 
sampler. En realidad, deberfa decirse algo asi como procedimiento para obtener muestras , pero este tipo de 
expresiones no suelen encontrase en la literatura. (Nota del traductor.) 
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na a la existencia de objetos y a las relaciones entre ellos y puede expresar hechos refe- 
ridos a algunos o a todos los objetos de un dominio. Esto a menudo se traduce en re- 
presentaciones que son enormemente mas concisas que las descripciones équivalentes 
usando proposiciones. Ahora, las redes Bayesianas son en esencia proposicionales: el 
conjunto de variables es fijo y finito, y cada una tiene un domino fijo de posibles valo- 
res. Este hecho limita el campo de aplicacion de las redes Bayesianas. Si podemos en- 
contrar un modo de combinai' la teoria de la probabilidad con la potencia expresiva de 
las representaciones de primer orden, cabe esperar que seamos capaces de incrémen¬ 
tal' espectacularmente el rango de problemas que se puedan manejar. 

La vision bâsica necesaria para alcanzar este objetivo es la siguiente: en el contex¬ 
te proposicional, una red Bayesiana détermina probabilidades sobre sucesos atomicos, 
cada uno de los cuales especifica un valor para cada variable de la red. Asi, un suceso 
atômico es un modelo o mundo posible, en la terminologia de la lôgica proposicional. 
En el contexto de primer orden, un modelo (con su interpretaciôn) especifica un domi¬ 
nio de objetos, las relaciones que se verifican entre esos objetos, y una correspondencia 
desde las constantes y predicados de la base de conocimiento hasta los objetos y rela¬ 
ciones en el modelo. Por lo tanto, una base de conocimiento probabilista de primer or¬ 
den deberîa especificar probabilidades para todos los posibles modelos de primer 
orden. Sea p{M) la probabilidad asignada al modelo M por la base de conocimiento. Para 
cualquier oracion de primer orden </>, la probabilidad P(4>) viene dada de la forma usual 
sumando en todos los mundos posibles en los que é es cierta: 


P(0)= S p(M) (14.12) 

M : (f> es cierta en M 


MODELO 

PROBABILISTA 

RELACIONAL 


FUNCIÔN SIMPLE 


Hasta el momento, todo va bien. Sin embargo, hay un problema: el conjunto de mode¬ 
los de primer orden es infinito. Esto significa que (1) calcular la suma total podrfa ser 
impracticable, y (2) la especificaciôn de una distribuciôn compléta y consistente defi- 
nida sobre un conjunto infinito de mundos podria ser muy difîcil. 

Recortemos nuestras aspiraciones, por lo menos por ahora. En particular, ideemos 
un lenguaje restringido para el que haya solo muchos (finitos) modelos de interés. Hay 
varias formas de hacer esto. Aqui, presentamos los modelos probabilistas relaciona- 
les, o MPR, los cuales toman prestadas algunas ideas de las redes semânticas (Capitulo 
10) y de las bases de datos relacionales orientadas a objetos. Se discuten otras aproxi- 
maciones en las notas bibliogrâficas e historicas. 

Los MPR dan cabida a los simbolos constantes para los objetos relativos a nombres. 
Por ejemplo, sea ProfSmith el nombre de un profesor, y sea Jones el nombre de un estu- 
diante. Cada objeto es una instancia de una clase; por ejemplo ProfSmith es un Profesor 
y Jones es un Estudiante. Asumimos que la clase de cada simbolo constante es conocida. 

Nuestros simbolos de funciones se dividirân en dos tipos. El primero de ellos, fun- 
ciones simples, que asocian un objeto a un valor de un dominio fijo de valores, y no a 
otro objeto estructurado, exactamente como una variable aleatoria. Por ejemplo Inteli- 
gencia(Jones) y Financiaciôn{ProfSmith ) podria ser alto o bajo', ÉxitoiJones) y Presti- 
gio(ProfSinitlï) puede ser verdad ofalso. Los simbolos de funciones no deben aplicarse 
a valores como verdad y falso, asi no es posible tener anidamientos de funciones sim¬ 
ples. De este modo, evitamos una fuente de infinidades. El valor de una funcion aplica- 
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da a un objeto dado puede ser observado o desconocido; estas serân las variables alea- 
torias bâsicas de nuestra representaciôn 12 . 

funcion compleja También permitimos funciones complejas que asocian objetos a otros objetos. Por 

ejemplo Consultor(Jones ) podria ser ProfSmith. Cada funcion compleja tiene un domi- 
nio especifico y un rango, los cuales son clases. Por ejemplo, el dominio de Consulter 
es Estudiante y el rango es Profesor. Las funciones solo se aplican a la clase correcta; 
por ejemplo, el Consulter de ProfSmith no esta definido. Las funciones complejas pue- 
den estar anidadas: DirectorDptoiConsultorUones)) podria ser ProfMoore. Supondre- 
mos (por ahora) que los valores de todas las funciones complejas son conocidos para todos 
los simbolos constantes. Ya que la base de conocimiento es finita, esto implica que cada 
concatenaciôn de llamadas a funciones complejas conduce a uno de los objetos, que es- 
tân en un nümero finito 13 . 

El ültimo elemento que necesitamos es la informaciôn probabilista. Para cada fun¬ 
cion simple, especificamos un conjunto de padres, al igual que en redes Bayesianas. Los 
padres pueden ser otras funciones simples del mismo objeto; por ejemplo, la Financia- 
ciôn de un Profesor podrian considerar su Exila. Los padres también pueden ser funciones 
simples de objetos relacionados (por ejemplo, el Exito de un Estudiante podria depen- 
der de la Inteligencia del estudiante y del Prestigio del consultor del estudiante). Estas 
son realmente afirmaciones cuantificadas universalmente referentes a los padres de to¬ 
dos los objetos de una clase. Asi, podriamos escribir 

Vx x e Estudiante => 

Padres{Exito(x )) = { lnteligenciaix ), Prestigio(Consultor(x))} 

(Aunque menos formai, podemos dibujar diagramas como el de la Figura 14.16(a).) Aho¬ 
ra establecemos la distribuciôn de probabilidad condicionada para los hijos, dados sus 
padres. Por ejemplo, podriamos decir que 

Vx x e Estudiante => 

P(Exito{x ) = verdad\lnteligencia(x) = alto, Prestigio(Consultor(x)) = verdad ) = 0,95 

Como en redes semânticas, podemos anadir la distribuciôn condicionada a la clase en 
si, para que las instancias hereden las dependencias y probabilidades condicionadas de 
la clase. 

La semântica del lenguaje de los MPR supone que cada simbolo constante se re- 
fiere a un objeto distinto, asunciôn de nombres unicos descrito en el Capitulo 10. Dada 
esta suposiciôn y las restricciones enumeradas anteriormente, se puede demostrar que 
cada MPR généra un conjunto finito y fijo de variables aleatorias, cada una de las cua¬ 
les es una funcion simple aplicada a un simbolo constante. Enfonces, supuesto que las 
dependencias padre-hijo son aciclicas, podemos construir una red Bayesiana équiva¬ 
lente. Esto es, el MPR y la red Bayesiana especifican probabilidades idénticas para cada 
mundo posible. La Figura 14.16(b) muestra la red Bayesiana correspondiente al MPR 


12 Representan un papel muy similar al de las sentencias atômicas generadas en el proceso de proposicio- 
nalizaciôn descrito en la Secciôn 9.1. 

13 Esta restricciôn significa que no podemos usar funciones complejas taies como Padre o Madré , que con- 
ducen a encadenamientos potencialmente infinitos que tendrian al final un objeto desconocido. Revisamos 
luego esta restricciôn. 
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Figura 14.16 (a) Un MPR describiendo dos clases: Profesor y Estudiante. Hay dos profesores y 

dos estudiantes, y ProfSmith es un consultor de ambos estudiantes. (b) La red bayesiana équiva¬ 
lente al MPR de (a). 


DEPENDENCIA 

RECURSIVA 


INCERTIDUNBRE 

RELACIONAL 


INCERTUDUMBRE 
DE IDENTIDAD 


de la Figura 14.16(a). Observe que los enlaces del Consultor en el MPR no estân en la 
red Bayesiana. Esto es porque son fijos y conocidos. Aparecen implîcitamente en la red 
topolôgica, sin embargo, por ejemplo, Exito(Jones) tiene a PrestigioiP rofS mit h) como 
padre ya que el Consultor{Jones) es ProfSmith. En general, las relaciones que se cum- 
plen entre los objetos determinan el patron de dependencias entre las propiedades de 
esos objetos. 

Hay varios modos de incrementar la potencia expresiva de los MPR. Podemos per- 
mitir dependencias recursivas entre las variables para captar determinados tipos de 
relaciones récurrentes. Por ejemplo, suponga que la adiccion a la comida râpida esta cau- 
sada por el GenMc. Enfonces, para cualquier x, GenMc(x) dépende de GenMc(Padre(x )) 
y de GenMc(Madre(x)), que dependen a su vez de GenMc{Padre{Padre{x))), GenMc{Ma- 
dre(Padre(x ))) y asi sucesivamente. Incluso aunque taies bases de conocimientos co- 
rrespondan a redes Bayesianas con muchas (infinitamente) variables aleatorias, las 
soluciones pueden obtenerse, a veces, a partir de ecuaciones de punto fijo. Por ejemplo, 
la distribuciôn de equilibrio del GenMc puede calcularse, dada la probabilidad condi- 
cionada de la herencia. Otra familia muy importante de bases de conocimiento recursi¬ 
vas consiste en los modelos de probabilidad temporales descritos en el Capitulo 15. 
En estos modelos, las propiedades de un estado en el momento t dependen de las pro¬ 
piedades del estado en el momento t — 1 y asi sucesivamente. 

Los MPR también pueden extenderse para permitir incertidumbre relacional, esto 
es, incertidumbre referente a los valores de funciones complejas. Por ejemplo, podemos 
no saber quién es Consultor(Jones). Consultor{Jones) se convierte enfonces en una va¬ 
riable aleatoria, con posibles valores ProfSmith y ProfMoore. La correspondiente red se 
muestra en la Figura 14.17. 

Puede haber también incertidumbre de identidad; por ejemplo, podriamos no 
saber si Mary y ProfSmith son la misma persona. Con incertidumbre de identidad, el nü- 
mero de objetos y proposiciones puede variar a lo largo de los mundos posibles. Un mun- 
do donde Mary y ProfSmith son la misma persona tiene un objeto menos que un mundo 
en el que son personas diferentes. Esto hace el proceso de inferencia mas complicado, 
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Figura 14.17 Parte de una red bayesiana correspondiente a un MPR en el que ConsuItor(Jones) 
es desconocido, pero o es ProfSmith o es ProfMoore. La elecciôn del consultor dépende de cuan- 
ta financiaciôn tenga cada profesor. Nôtese que Éxito(Jones) ahora dependerâ del Prestigio de am- 
bos profesores, aunque el valor de Consultor(Jones) détermina cuâl tiene influencia en realidad. 


pero el principio bâsico establecido en la Ecuaciôn (14.12) todavia se verifica: la pro- 
babilidad de cualquier oraciôn esta bien definida y puede ser calculada. La incertidum- 
bre de identidad es especialmente importante para robots y para sistemas sensoriales 
embebidos que deben estar al tanto de multiples objetos. Volveremos a este problema 
en el Capitulo 15. 

Ahora examinemos el asunto de la inferencia. Claramente, la inferencia se puede rea- 
lizar en la red Bayesiana équivalente, supuesto que restringimos el lenguaje del MPR 
para que asi la red équivalente sea finita y tenga una estructura fija. Esto es anâlogo al 
modo en que puede hacerse la inferencia lôgica de primer orden, via inferencia propo- 
sicional sobre la base de conocimiento proposicional équivalente. (Véase Apartado 9.1.) 
Como en el caso lôgico, la red équivalente podria ser demasiado grande para construir- 
la, solo se evalüa. Las interconexiones densas son también un problema. (Véase Ejerci- 
cio 14.12.) Algoritmos aproximados como el MCCM (Secciôn 14.5) son asi muy utiles 
para la inferencia en MPR. 

Cuando se aplica el MCCM a la red Bayesiana équivalente para una sencilla base de 
conocimiento de un MPR sin incertidumbre relacional o de identidad, el algoritmo mues- 
trea en el espacio de posibles mundos que estân definidos por los valores de funciones sim¬ 
ples de los objetos. Es fâcil ver que esta aproximaciôn puede extenderse para manejar 
adicionalmente incertidumbre relacional y de identidad. En ese caso, una transiciôn entre 
mundos posibles podria cambiar el valor de una funciôn simple o podria cambiar una fun¬ 
ciôn compleja, y asi conducir a una transformaciôn en la estructura de dependencias. Las 
transiciones podrian también cambiar las relaciones de identidad entre los simbolos cons¬ 
tantes. Asi, el MCCM parece ser un modo elegante para tratar la inferencia en bases de 
conocimiento probabilistas de primer orden que se sean realmente expresivas. 

La investigaciôn en esta area esta todavia en un estado primitivo, pero esta mostrando 
claramente que el razonamiento probabilista de primer orden produce un incremento tre- 
mendo en la efectividad de los sistemas de IA en el tratamiento de la informaciôn in- 
cierta. Aplicaciones potenciales incluyen vision por computador, comprensiôn del 
lenguaje natural, recuperaciôn de informaciôn y valoraciôn de situaciones. En todas es- 
















RAZONAMIENTO PROBABILISTA 595 


tas areas, el conjunto de objetos (y asf el conjunto de variables aleatorias) no es conoci- 
do con antelaciôn, por lo que los métodos puramente «proposicionales», taies como re- 
des Bayesianas, son incapaces de representar la situaciôn en su totalidad. Estas areas se 
han expandido al buscar en el espacio de modelos, pero los MPRs permiten el razona- 
miento sobre esta incertidumbre con un modelo sencillo. 


14.7 Otros enfoques al razonamiento con 
incertidumbre 


Otras ciencias (por ejemplo, la Ffsica, la Genética, y la Economfa) han favorecido bas- 
tante a la probabilidad como un modelo para la incertidumbre. En 1819, Pierre Laplace 
dijo «la teoria de la probabilidad no es nada, solamente el sentido comün para el câlcu- 
lo». En 1850, James Maxwell dijo «la lôgica auténtica para este mundo es el câlculo de 
probabilidades, que tiene en cuenta la grandeza de la probabilidad que esta, o deberia 
estar, en la mente de un hombre sensato». 

Dada esta larga tradiciôn, es quizâ sorprendente que la IA haya considerado muchas 
altemativas a la probabilidad. Los primeras sistemas expertos de la década de 1970 ig- 
noraron la incertidumbre y usaron razonamiento estrictamente lôgico, pero pronto 11e- 
gô a estar claro que esto era poco prâctico para la mayoria de los dominios del mundo 
real. La siguiente generaciôn de sistemas expertos (especialmente en dominios médicos) 
usaron técnicas probabilistas. Los resultados iniciales fueron prometedores, pero no po- 
dian generalizarse debido al nümero exponencial de probabilidades necesarias en la dis- 
tribuciôn conjunta de probabilidad. (Por enfonces se desconocian los algoritmos eficientes 
en redes bayesianas.) Como una consecuencia, el enfoque probabilista descendiô su acep- 
taciôn aproximadamente entre 1975 y 1988, y se intentaron diversas altemativas a la pro¬ 
babilidad por distintas razones: 

• Un punto de vista comün es que la teoria de la probabilidad es esencialmente nu- 
mérica, mientras que el razonamiento humano es mas «cualitativo». Ciertamente, 
no nos damos cuenta conscientemente en realizar câlculos numéricos de grados 
de creencia. (Ni somos conscientes de hacer unificaciones, a pesar de eso parece 
que somos capaces de algün tipo de razonamiento lôgico.) Debe ser que tenemos 
algün tipo de grados de creencia numéricos codificados directamente en la forta- 
leza de las conexiones y activaciones de nuestras neuronas. (En ese caso, la difi- 
cultad para el acceso consciente a esas fortalezas no es sorprendente.) Deberia 
también notar que los mecanismos de razonamiento cualitativo pueden construir- 
se directamente por encima de la teoria de la probabilidad, por lo que el argumento 
de «no nümeros» contra la probabilidad tiene poca fuerza. No obstante, algunos 
esquemas cualitativos tienen un buen montôn de atractivos por propio derecho. Uno 
de los mejores estudiados es el razonamiento por defecto, que trata las conclu- 
siones no como «creidas hasta un cierto grado», sino como «crefdas hasta que se 
encuentre un razôn mejor para creer alguna otra cosa». El razonamiento por de¬ 
fecto se tratô en el Capltulo 10. 
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• Los enfoques basados en réglas para la incertidumbre también se han probado. Ta¬ 
ies aproximaciones esperan agregar los sucesos de los sistemas lôgicos basados en 
réglas, pero anaden un tipo de «factor amanado» a cada régla para reubicar la in- 
certidumbre. Estos métodos se desarrollaron a mediados de 1970 y constituyeron 
las bases de un gran nümero de sistemas expertos en medicina y otras areas. 

• Una area que no habiamos tratado hasta este momento es la cuestiôn de la igno- 
rancia, como opuesto a la incertidumbre. Considéré el lanzamiento de una mone- 
da. Si sabemos que la moneda no esta trucada, enfonces una probabilidad de 0,5 
para la cara es razonable. Si sabemos que la moneda esta trucada, pero no sabemos 
qué lado, enfonces 0,5 es la ünica probabilidad razonable. La teoria de Dempster- 
Shafer usa grados de creencia dados por intervalos de valores para representar el 
conocimiento de un agente referente a la probabilidad de una proposiciôn. También 
se plantean otros métodos utilizando probabilidades de segundo orden. 

• Las probabilidades hacen la misma misiôn ontolôgica que la logica: los sucesos 
son ciertos o falsos en el mundo, incluso si el agente esta dudoso para determinar 
cuâl es el caso. Los investigadores en logica borrosa han propuesto una ontolo- 
gia que permite la vaguedad: que un suceso pueda ser «en cierto modo» verdad. 
La vaguedad y la incertidumbre son de hecho asuntos ortogonales, como veremos. 

Los siguientes très apartados tratan algunas de estas aproximaciones con un poco mas 
de profundidad. No daremos material técnico detallado, pero citamos referencias para 
mas informaciôn. 


Métodos basados en réglas para razonamiento 
con incertidumbre 


LOCALIDAD 


DESAPEGO 


OPERATIVIDAD DE 
LA VERDAD 


Los sistemas basados en réglas surgieron con los primeras trabajos en sistemas prâcti- 
cos e intuitivos con inferencia logica. Los sistemas lôgicos en general, y los sistemas ba¬ 
sados en réglas lôgicas en particular, tienen très propiedades deseables: 

— Localidad: en los sistemas lôgicos, siempre que tenemos una régla de la forma 
A => B, podemos concluir B, dada la evidencia A, sin preocuparnos de lo que 
le oeuvra a cualquiera de las otras réglas. En sistemas probabilistas, necesita- 
mos considerar todas las evidencias del manto de Markov. 

— Desapego: una vez que se encuentra una demostraciôn logica para una propo¬ 
siciôn B, la proposiciôn puede ser utilizada independientemente de como se de- 
duzea. Esto es, puede desapegarse de su justificaciôn. En relaciôn con las 
probabilidades, por otro lado, el origen de la evidencia para una creencia es im¬ 
portante para el razonamiento subsiguiente. 

— Operatividad de la verdad: en logica, la verdad de las oraciones complejas pue¬ 
de calcularse a partir de la verdad de sus componentes. La combinaciôn proba- 
bilista no trabaja de este modo, excepto bajo condiciones fuertes de independencia 
global. 


Ha habido distintos intentos para disenar esquemas de razonamiento con incertidumbre 
que mantengan estas ventajas. La idea es ligar grados de creencia a proposiciones y re- 
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glas e idear esquemas puramente lôgicos para la combinaciôn y propagaciôn de estos 
grados de creencia. Los esquemas son también operativos de la verdad; por ejemplo, el 
grado de creencia de A v B es una funcion de la creencia de A y la creencia de B. 

Las malas noticias para los sistemas basados en réglas es que las propiedades de lo- 
calidad, desapego y operativos de la verdad simplemente no son congruentes con el ra- 
zonamiento incierto. Veamos primero la operatividad de la verdad. Sea H l el suceso de 
que al lanzar una moneda no trucada aparezca cara, sea 7j el suceso de que aparezca cmz 
en algün lanzamiento, y sea H 2 el suceso de que aparezca cara en el segundo lanzamiento. 
Claramente, los très sucesos tienen la misma probabilidad, 0,5, y asi un sistema que use 
operatividad de la verdad debe asignar la misma creencia a la disyunciôn de cualquiera 
dos de ellos. Pero podemos ver que la probabilidad de la disyunciôn dépende de los su¬ 
cesos en si y no de sus probabilidades: 


P(A) 

P(B) 

P(A v B) 

P(H ,) = 0,5 

P(H t ) = 0,5 
P(7j) = 0,5 
P(H 2 ) = 0,5 

P(H l v //,) = 0,50 
P{H,wT x ) = 1,00 
P(H l v H ,) = 0,75 


Peor es cuando encadenamos la evidencia. Los sistemas con operatividad de la verdad 
tienen réglas de la forma A >-> B que nos permite computar la creencia en B como una 
funcion de la creencia en la régla y la creencia en A. Se pueden disenar tanto para los 
sistemas de encadenamiento hacia delante como en los de encadenamiento hacia atrâs. 
La creencia en la régla se supone que es constante y se détermina usualmente por el in- 
geniero de conocimiento, por ejemplo, como A i-» 09 B. 

Considéré la situaciôn de la hierba hümeda de la Figura 14. ll(a). Si queremos ser 
capaces de hacer tanto razonamiento causal como de diagnôstico, necesitariamos las dos 
réglas 

Lluvia *—> HierbaHûmeda y HierbaHumeda >-» Lluvia 

Estas dos réglas forman un ciclo retroalimentado: la evidencia para Lluvia incrementa 
la creencia en HierbaHûmeda, lo que a su vez incrementa la creencia en Lluvia incluso 
mas. Claramente, los sistemas de razonamiento con incertidumbre necesitan estar al tan¬ 
to de los caminos a través de los que se propagé la evidencia. 

El razonamiento intercausal (o justificaciôn mediante razones convincentes) es tam¬ 
bién dificil. Reflexione lo que ocurre cuando tenemos las dos réglas 

Aspersor >-> HierbaHûmeda y HierbaHûmeda >—> Lluvia 

Suponga que vemos que el aspersor esta encendido. Encadenando hacia delante por nues- 
tras réglas, esto incrementa la creencia de que la hierba esta hümeda, lo que a su vez 
incrementa la creencia de que esta lloviendo. Pero esto es ridiculo: el hecho de que el 
aspersor esté encendido justifica el que la hierba esté hümeda y deberia reducir la cre¬ 
encia en la lluvia. Un sistema con operatividad de la verdad actüa como si también con- 
siderara la régla Aspersor >—> Lluvia. 

Dadas estas dificultades, /como es posible que los sistemas con operatividad de la 
verdad se considerasen incluso ütiles? La respuesta se encuentra en la restricciôn de la 
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FACTORES DE 
CERTEZA 


DEMPSTER-SHAFER 


FUNCIÔN DE 
CREENCIA 


tarea y en una ingenierîa escrupulosa en la base de réglas de modo que las interaccio- 
nes no deseables no ocurran. El ejemplo mas famoso de sistemas con operatividad de la 
verdad para razonamiento incierto es el modelo de factores de certeza, que se desarro- 
116 en el programa de diagnostico médico Mycin y fue ampliamente utilizado en siste¬ 
mas expertos de finales de los 70 y 80. Casi todos los usos de factores de certeza 
involucraron conjuntos de réglas o eran puramente de diagnostico (como en Mycin) o 
eran puramente causales. Mas aün, la evidencia solo se introducia en las «raices» del con- 
junto de réglas, y la mayoria de las réglas eran de conexiôn simple. Heckerman (1986) 
ha demostrado que, bajo estas circunstancias, una variaciôn de poca importancia en la 
inferencia con factores de certeza era exactamente équivalente a la inferencia bayesia- 
na en poliârboles. En otras circunstancias, los factores de certeza podrian producir 
catastrôficamente grados incorrectos de creencia por un sobrerecuento de la evidencia. 
Cuando los conjuntos de réglas se hacen voluminosos, llegan a ser mas comunes las inter- 
acciones indeseables entre las réglas, y los profesionales ven que los factores de certe¬ 
za de muchas otras réglas tienen que ser «pellizcadas» cuando se anaden nuevas réglas. 
Es innecesario decir que este enfoque ya no se recomienda. 

Representaciôn de la ignorancia: 
teorfa de Dempster-Shafer 

La teorfa de Dempster-Shafer esta disenada para tratar con la diferencia entre incerti- 
dumbre e ignorancia. Mas que calcular la probabilidad de una proposicion, calcula la 
probabilidad con que la evidencia respalda la proposicion. Esta medida de creencia se 
llama funciôn de creencia, y se escribe Bel{X). 

Como ejemplo de funciôn de creencia, volvamos al lanzamiento de monedas. Supon- 
ga que un personaje sombrfo de pronto va hacia usted y le ofrece apostar 10 dôlares a que 
en su moneda aparecerâ cara en el siguiente lanzamiento. Dado que la moneda puede o no 
puede estar trucada, /t|ué creencia deberia asignar al suceso de que aparezca cara? La teo- 
ria de Dempster-Shafer dice que puesto que no tiene ninguna evidencia de ningün modo, 
tiene que decir que la creencia Bel(Cara ) = 0 y también que Bel(—Carà) = 0. Esto hace 
escépticos a los sistemas de razonamiento de Dempster-Shafer, de un modo que tiene 
cierto atractivo intuitivo. Ahora suponga que tiene un experto a su disposiciôn que ates- 
tigua con una certidumbre del 90 por ciento que la moneda es legal (es decir, esta segu- 
ro en un 90 por ciento de que P{Cara) = 0,5). Enfonces, la teorfa de Dempster-Shafer 
asigna Bel(Cara ) = 0,9 X 0,5 = 0,45 y de igual modo BeI(—iCara) = 0,45. Hay toda- 
via un porcentaje de 10 que indica una «laguna» que no esta explicada por la evidencia. 
La «régla de Dempster» (Dempster, 1968) muestra como combinar la evidencia para asig¬ 
nar un valor nuevo para Bel, y el trabajo de Shafer extiende esto a un modelo computa- 
cional completo. 

Como con razonamiento por defecto, hay un problema para conectar las creencias 
a las acciones. Con probabilidades, la teorfa de la decision dice que si P(Çara ) = 
P(—iCara ) = 0,5, enfonces (suponiendo que el ganar 10 dôlares y perder 10 dôlares se 
consideran opuestas de igual magnitud) quien lo razone sera indiferente entre la acciôn 
de la aceptaciôn y de la declinaciôn de la apuesta. Quien razone segün Dempster-Shafer 
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tiene que BeI(—iCara) = 0 y asi no hay razôn para aceptar la apuesta, pero ademâs tam- 
bién tiene Bel(Cara ) = 0 y asi no hay razôn para declinarla. Asi, parece que quien razo- 
ne segün Dempster-Shafer llega a la misma conclusion sobre cômo actuar en este caso. 
Desafortundamente, la teorfa de Dempster-Shafer no permite decisiones claras en muchos 
otros casos donde la inferencia probabilista élabora una elecciôn précisa. De hecho, la no- 
ciôn de utilidad en el modelo de Dempster-Shafer no se comprende todavia bien. 

Una interpretaciôn de la teorfa de Dempster-Shafer es que define un intervalo de pro- 
babilidad: el intervalo para Car a es [0, 1] antes de nuestro testimonio experto y [0,45, 
0,55] después. El ancho del intervalo deberfa ser una ayuda en la decision de cuândo ne- 
cesitamos adquirir mas evidencia: puede decirle que el testimonio del experto le ayu- 
darâ si no sabe si la moneda es legal, pero no le ayudarâ si se ha enterado de que la moneda 
es legal. Sin embargo, no hay una directriz clara de cômo hacer esto, porque no esta cla- 
ro el significado de qué quiere decir la anchura del intervalo. En el enfoque bayesiano, 
este tipo de razonamiento puede hacerse fâcilmente estudiando cuânta creencia deberfa 
cambiar si estaba dispuesto a adquirir mas evidencia. Por ejemplo, el saber que la mo¬ 
neda es legal tendrîa un impacto significativo sobre la creencia de que saldrâ cara, y la 
detecciôn de un peso asimétrico tendrîa un impacto sobre la creencia de que la moneda 
es legal. Un modelo completo bayesiano incluiria estimaciones probabilistas de facto- 
res como éstos, permitiéndonos expresar nuestra «ignorancia» en términos de cômo nues- 
tras creencias cambiarian ante la recogida de informaciôn futura. 


TEORIA DE LOS 
CONJUNTQS DIFUSOS 



LÔGICA DIFUSA 


Representaciôn de la vaguedad: conjuntos difusos y 
lôgica difusa 

La teoria de los conjuntos difusos es un instrumento para la especificaciôn de lo bien 
que un objeto satisface una descripciôn vaga. Por ejemplo, considéré la proposiciôn 
«Nate es alta». / ; Es esto verdad si Nate mide 5' 10"? La mayoria de la gente vacilaria al 
responder «verdad» o «falso», preferirîan decir, «tipo de». Nôtese que esto no es una pre- 
gunta de incertidumbre sobre el mundo extemo (estamos seguros de la altura de Nate). 
El asunto es que el término lingüistico «alto» no se refiere a una delimitaciôn clara de los 
objetos en dos clases (hay grados de altura). Por esta razôn, la teoria de los conjuntos di¬ 
fusos no es un método para razonamiento incierto en absoluto. Mejor dicho, la teorfa de 
los conjuntos difusos trata Alto como un predicado difuso y dice que el valor de verdad 
de Alto{Nate) es un nümero entre 0 y 1, en vez de un verdad o falso exacto. El nombre 
«conjunto difuso» proviene de la interpretaciôn del predicado como la definiciôn impli- 
cita de un conjunto de sus miembros (un conjunto que no tiene fronteras delimitadas). 

La lôgica difusa es un método para el razonamiento con expresiones lôgicas que des- 
criben las pertenencias a los conjuntos difusos. Por ejemplo, la oraciôn compleja 
Alto{Nate) a Grueso(Nate ) tiene un valor de verdad difuso que es una funciôn de los va- 
lores de verdad de sus componentes. Las réglas estândares para la evaluaciôn de la ver¬ 
dad borrosa, T, de una oraciôn compleja son: 


T (A a B) = mm(T(A), T(Bj) 
T {A v B) — ma x(T(A), T(B)) 
T(—\A) = 1 - T(A) 
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La logica difusa es asf un sistema de operatividad de la verdad, un hecho que causa sé¬ 
rias dificultades. Por ejemplo, suponga que T(AIto(Nate )) = 0,6 y T{Grueso{Nate)) — 0,4. 
Enfonces tenemos que T(Alto(Nate ) a Grueso{Nate)) — 0,4, que parece razonable, pero 
también asigna el resultado T(Alto(Nate ) a — Alto (Nate )) = 0,4, que no lo es. Clara- 
mente, el problema aparece de la incapacidad del enfoque de operatividad de la verdad 
para tener en cuenta las correlaciones o anti-correlaciones entre las proposiciones com- 
ponentes. 

El control difuso es una metodologia para la construcciôn de sistemas de control en 
los que las correspondencias entre las entradas real valuadas y los parâmetros de salida 
estân representadas por réglas difusas. El control difuso ha tenido mue ho éxito en pro- 
ductos comerciales como transmisiones automâticas, câmaras de video, y mâquinas de 
afeitar eléctricas. Los criticos ( véase , por ejemplo, Elkan, 1993) argumentan que estas 
aplicaciones son exitosas porque tienen pequerias bases de réglas, no tienen encadena- 
miento de inferencias, y parâmetros que pueden ajustarse para mejorar el desarrollo del 
sistema. El hecho es que estân realizados con operadores difusos que son inhérentes a 
sus éxitos: la clave es simplemente proporcionar un modo conciso e intuitivo para es- 
pecificar una funciôn real valuada con una interpolaciôn suave. 

Ha habido intentas para dar una explicaciôn de la logica difusa en términos de la 
teoria de la probabilidad. Una idea es ver las oraciones, taies como «Nate es alta», como 
la realizaciôn de observaciones discretas concernientes a una variable oculta continua, 
\& Altura actual de Nate. El modelo probabilista especifica P(EI observador dice que 
Nate es alta| Alturà), quizâs usando una distribuciôn probit como se definiô en el Apar- 
tado 14.3. La distribuciôn posterior de la altura de Nate se puede enfonces calculai - del 
modo usual, por ejemplo si el modelo es parte de una red bayesiana hibrida. Tal en¬ 
foque no realiza operatividad de la verdad, por supuesto. Por ejemplo, la distribuciôn 
condicionada 

P(E1 observador dice que Nate es alta y gruesa| Altura, Peso ) 

tiene en cuenta las interacciones entre la altura y el peso debido a la observaciôn. Asi, 
a alguien que mida ocho pies y pese 190 libras es muy improbable que se le llame «alto 
y grueso», incluso aunque «ocho pies» se considéré «alto» y «190 libras» se considéré 
«grueso». 

Los predicados difusos también se pueden establecer dando una interpretaciôn pro¬ 
babilista en términos de conjuntos aleatorios, esto es, variables aleatorias taies que sus 
valores posibles son conjuntos de objetos. Por ejemplo, Alto es un conjunto aleatorio cu- 
yos valores posibles son conjuntos de personas. La probabilidad P{Alto = Sj), donde Sj 
es algün conjunto particular de personas, es la probabilidad de que exactamente ese con¬ 
junto estaria identificado como «alto» por el observador. Enfonces la probabilidad de que 
«Nate es alta» es la suma de las probabilidades de todos los conjuntos en los que Nate 
es un miembro. 

Tanto el enfoque de las redes bayesianas hfbridas como el enfoque de los conjuntos 
aleatorios surgen para capturar aspectos relativos a lo difuso sin introducir grados de 
verdad. No obstante, quedan muchos tôpicos abiertos referentes a la representaciôn co- 
rrecta de observaciones lingüisticas y cantidades continuas (tôpicos que han sido des- 
cuidados por la mayoria que no son de la comunidad difusa). 
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14.8 Resumen 


En este capitulo se han descrito las redes bayesianas, una representacion bien desarro- 
llada para el conocimiento incierto. Las redes bayesianas representan un papel casi anâ- 
logo al de la logica proposicional para conocimiento cierto. 

• Una red bayesiana es un grafo aciclico dirigido cuyos nodos corresponden a va¬ 
riables aleatorias; cada nodo tiene una distribucion condicionada para el nodo, da- 
dos sus padres. 

• Las redes bayesianas proporcionan un modo conciso para representar relaciones 
de independencia condicionada del dominio. 

• Una red bayesiana détermina una distribucion conjunta compléta: cada entrada de 
la conjunta esta definida como el producto de las correspondientes entradas de las 
distribuciones condicionadas locales. Una red bayesiana es a menudo exponen- 
cialmente mas pequena que la distribucion conjunta compléta. 

• Muchas distribuciones condicionadas pueden representarse de una forma compacta 
usando familias canonicas de distribuciones. Las redes bayesianas hibridas, que 
incluyen tanto variables discretas como continuas, usan diversas distribuciones ca- 
nônicas. 

• La inferencia en redes bayesianas significa el câlculo de la distribucion de proba- 
bilidad de un conjunto de variables preguntas, dado un conjunto de variables de 
evidencia. Los algoritmos de inferencia exacta, tal como la eliminaciôn de va¬ 
riables, evalüa sumas de productos de probabilidades condicionadas tan eficien- 
temente como le es posible. 

• En poliàrboles (redes con conexiôn simple), la inferencia exacta necesita tiempo 
lineal en el tamano de los nodos. En el caso general, el problema es intratable. 

• Las técnicas de aproximaciôn estocâstica taies como la ponderaciôn de la verosi- 
militud y Monte Carlo por cadenas de Markov pueden proporcionar estimacio- 
nes razonables de las auténticas distribuciones posteriores de la red y pueden hacer 
frente a redes mucho mas grandes que las que pueden tratar los algoritmos exactos. 

• La teorfa de la probabilidad puede combinarse con ideas de representacion de la 
logica de primer orden para hacer sistemas muy potentes para el razonamiento con 
incertidumbre. Los modelos probabilistas relacionales (MPRs) incluyen res- 
tricciones en la representacion que garantizan una distribucion de probabilidad bien 
definida que puede expresarse como una red bayesiana équivalente. 

• Se han sugerido varios sistemas alternativos para el razonamiento con incerti¬ 
dumbre. Hablando en general, los sistemas con operatividad de la verdad no son 
muy apropiados para este tipo de razonamiento. 



Notas bibliogrâficas e histôricas 

El uso de redes para representar informacion probabilista comenzo a principios del si- 
glo xx, con el trabajo de Sewal Wright sobre el anâlisis probabilista de herencia gêné- 
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tica y factores de crecimiento animal (Wright, 1921, 1934). Una de sus redes aparece 
en la cubierta de este libro. IJ. Good (1961), en colaboraciôn con Alan Turing, desarrollô 
representaciones probabilistas y métodos de inferencia bayesiana que podrian conside- 
rarse como precursoras de las redes bayesianas modernas, aunque el articulo no es mu- 
cha veces citado en este contexto 14 . El mismo articulo es la fuente original para el 
modelo del ruido-OR. 

La representaciôn de los diagrantas de influencia para problemas de decision, que 
incorporaron una representaciôn de GAD para las variables aleatorias, se usaron en el 
anâlisis de la decision al final de 1970 (véase Capitulo 16), pero solo la enumeraciôn se 
utilizaba para la evaluaciôn. Judea Pearl desarrollô el método de paso-de-mensajes para 
llevar a cabo la inferencia en redes con forma de ârbol (Pearl, 1982a) y redes poliârbo- 
les (Kim y Pearl, 1983) y explicô la importancia de la construcciôn causal en vez de mo- 
delos probabilistas de diagnôstico, en contraste con los sistemas basados en factores de 
certeza entonces en boga. El primer sistema experto que usaba redes bayesianas fue Con- 
vince (Kim, 1983; Kim y Pearl, 1987). Sistemas mas recientes incluyen el sistema Mu- 
nin para el diagnôstico de desôrdenes neuromusculares (Andersen et al., 1989) y el 
sistema Pathfinder para patologia (Heckerman, 1991). Con mucho, los sistemas de re¬ 
des bayesianas mas ampliamente utilizados han sido los môdulos de diagnôstico y re- 
paraciôn (por ejemplo, el Printer Wizard 15 ) de Microsoft Windows (Breese y Heckerman, 
1996) y el Office Assistant 16 de Microsoft Office (Horvitz et al., 1998). 

Pearl (1986) desarrollô un algoritmo basado en grupos para inferencia exacta en re¬ 
des bayesianas generales, utilizando una transformaciôn a un poliârbol dirigido de gru¬ 
pos. Un enfoque similar, desarrollado por los estadisticos David Spiegelhalter y Steffen 
Lauritzen (Spiegelhalter, 1986; Lauritzen y Spiegelhalter, 1988), se basa en la transfor¬ 
maciôn a una red (de Markov) no dirigida. Este enfoque esta implantado en el sistema 
Hugin, una herramienta eficiente y ampliamente utilizada para razonamiento incierto 
(Andersen et al., 1989). Ross Shachter, trabajando en la comunidad de los diagramas de 
influencia, desarrollô un método exacto basado en la reducciôn de la red dirigida por el 
objetivo, usando transformaciones que preservan el câlculo de la distribuciôn a poste¬ 
riori (Shachter, 1986). 

El método de eliminaciôn de variables descrito en el capitulo esta mas cerca en es- 
piritu al método de Shacter, desde el cual surgiô el algoritmo de inferencia probabilista 
simbôlica (IPS) (Shachter et al., 1990). La IPS intenta optimizar la evaluaciôn de ex- 
presiones en forma de ârbol como el que se muestra en la Figura 14.8. El algoritmo que 
nosotros describimos esta mas cerca al desarrollado por Zhang y Poole (1994, 1996). 
Los criterios para podar variables irrelevantes los desarrollaron Geiger et al. (1990) y 
Lauritzen et al. (1990); el criterio que nosotros damos es un caso especial de éstos. Rina 


14 I.J. Good era jefe estadlstico del equipo de descodificacion de Turing en la segunda guerra mundial. En 
2001: A Space Odyssey (Clarke, 1968a), da el mérito a Good y Minsky por la innovacion que condujo al de- 
sarrollo del computador HAL 9000. 

15 El término Printer Wizard es el nombre propio de un môdulo informâtico, de ahi que no se traduzea. No 
obstante, indicar que printer significa impresora y wizard en el contexto informâtico viene a significar apli- 
caciôn que ayuda al usuario a ejecutar una tarea déforma eficaz. (Nota del traductor.) 

16 El término Office Assistant es el nombre propio de un modulo informâtico, de ahf que no se traduzea. No 
obstante, indicar que vendria a significar Ayudante de Oficina. (Nota del traductor.) 
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Dechter (1999) demuestra como la idea de eliminacion de variables es esencialmente idén- 
tica a la programaciôn dinâmica no en sérié (Bertele y Brioschi, 1972), un enfoque 
algorftmico que puede aplicarse para resolver un campo de problemas de inferencia en 
redes bayesianas, por ejemplo, buscar la explicaciôn mas probable para un conjunto 
de observaciones. Esto conecta los algoritmos de redes bayesianas a métodos para re¬ 
solver PSRs y da una medida directa de la complejidad de la inferencia exacta en tér- 
minos de la anchura del hiperârbol de la red. 

La inclusion de variables aleatorias continuas en redes bayesianas fue considerada 
por Pearl (1988) y Schachter y Kenley (1989); estos articulos plantearon redes que con- 
tenian solo variables continuas con distribuciones gaussianas lineales. La inclusion de 
variables discretas ha sido investigada por Lauritzen y Wermuth (1989) e implantada 
en cHUGIN (Olesen, 1993). La distribuciôn probit fue estudiada primero por Linney 
(1947), quien la llamo distribuciôn sigmoide. Ha sido ampliamente usada para el mo- 
delado del fenômeno de la elecciôn discreta y puede extenderse para manejar mas de 
dos elecciones (Daganzo, 1979). Bishop (1995) da una justificaciôn para usar la dis¬ 
tribuciôn logit. 

Cooper (1990) demostrô que el problema general de inferencia en redes bayesianas 
sin restricciones es NP-duro, y Paul Dagum y Mike Luby (1993) demostraron que el co- 
rrespondiente problema aproximado es NP-duro. La complejidad del espacio es también 
un serio problema tanto en el método basado en grupos como en el de eliminacion de 
variables. El método de condicionamiento usando conjuntos de corte, que fue des- 
arrollado para PSRs en el Capitulo 5, évita la construcciôn de tablas exponencialmente 
grandes. En una red bayesiana, un conjunto de corte es un conjunto de nodos que, cuan- 
do se les asignan valores (estân instanciados), reduce los nodos restantes a un poliârbol 
que puede resolverse en tiempo y espacio lineal. La pregunta se responde sumando en 
todas las instancias del conjunto de corte, asi el requerimiento de espacio completo es 
a pesar de eso lineal (Pearl, 1988). Darwiche (2001) describe un algoritmo basado en 
condicionamiento que es recursivo y que permite un rango completo de posibles equi- 
librios entre el espacio y el tiempo empleados. 

El desarrollo de algoritmos aproximados râpidos para inferencia en redes bayesia¬ 
nas es un area muy activa, con contribuciones de estadisticos, informâticos y fisicos. El 
método de muestreo con rechazo es una técnica general que es conocida desde hace tiem¬ 
po para los estadisticos; Max Henrion (1988) lo aplicô por primera vez a redes bayesianas, 
quien lo llamo muestreo lôgico. La ponderaciôn de la verosimilitud, que fue desarro- 
llado por Lung y Chang (1989) y Shachter y Peot (1989), es un ejemplo del método es- 
tadistico bien conocido de muestreo por importancia. Una aplicaciôn a gran escala de 
la ponderaciôn de la verosimilitud a diagnôstico médico aparece en Shwe y Cooper 
(1991). Cheng y Druzdzel (2000) describen una version adaptable de la ponderaciôn de 
la verosimilitud que trabaja bien incluso cuando la evidencia tiene una verosimilitud a 
priori muy baja. 

Los algoritmos de Monte Carlo usando cadenas de Markov (MCCM) comenzaron 
con el algoritmo de Metropolis, debido a Metropolis et al. (1953), que fue también la 
fuente del algoritmo de enfriamiento simulado descrito en el Capitulo 4. El muestrea- 
dor de Gibbs fue disenado por Geman y Geman (1984) para inferencia en redes de Mar¬ 
kov no dirigidas. La aplicaciôn de los MCCM a redes bayesianas se debe a Pearl (1987). 
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Los articulos recogidos por Gilks et al. (1996) cubren una amplia variedad de aplica- 
ciones de los MCCM, varios de los cuales se desarrollaron en el paquete bien conocido 
Bugs (Gilks et al, 1994). 

Hay dos familias muy importantes de métodos aproximados que no tratamos en el 
capitulo. La primera es la familia de métodos aproximados variables, que pueden 
usarse para simplificar câlculos complejos de todo tipo. La idea bâsica es plantear una 
version reducida del problema original con el que es sencillo trabajar, pero que se pa- 
rezca al original tanto como sea posible. El problema reducido se describe por algunos 
parâmetros variables À que se ajustan para minimizar una funciôn distancia D entre 
el problema original y el reducido, a menudo resolviendo el sistema de ecuaciones 
3 D/dA. = 0. En muchos casos, pueden obtenerse cotas superiores e inferiores estrictas. 
Los métodos variables han sido utilizados desde hace tiempo en estadistica (Rustagi, 
1976). En fisica estadistica, el método del campo medio es una aproximaciôn variable 
particular en el que las variables individuales que completan el modelo se supone que 
son completamente independientes. La idea se aplicô para resolver grandes redes de Mar- 
kov no dirigidas (Peterson y Anderson, 1987; Parisi, 1988). Saul et al., (1996) desarro¬ 
llaron los fundamentos matemâticos para la aplicaciôn de métodos variables a redes 
bayesianas y obtuvieron aproximaciones précisas de la cota inferior para redes sigmoi- 
des con el uso de métodos del campo-medio. Los enfoques variables son estudiados por 
Jordan et al. (1999). 

Una segunda familia importante de algoritmos aproximados es la basada en el al- 
goritmo de paso de mensajes para poliârboles de Pearl (1982a). Este algoritmo puede 
aplicarse a redes generales, como sugiriô Pearl (1988). Los resultados pueden ser in- 
correctos, o el algoritmo puede fallar para terminar, pero en muchos casos, los valores 
obtenidos son cercanos a los valores auténticos. Poca atenciôn se ha prestado a este en- 
foque conocido como propagaciôn de creencia (o propagaciôn ciclica) hasta que McE- 
liece et al., (1998) observaron que el paso de mensajes en una red bayesina con conexion 
mültiple era exactamente el câlculo que realizaba el algoritmo turbo descodificaciôn 
(Berrou et al., 1993), que proporcionô un avance importantisimo en el diseno de côdi- 
gos para correcciôn de errores. La consecuencia es que la propagaciôn ciclica es tanto 
râpida como précisa sobre las redes muy grandes y altamente relacionadas que se usan 
para el desciframiento y podria ser asi ütil en situaciones mas generales. Murphy et al., 
(1999) presentan un estudio empirico donde esto funciona realmente. Yedidia et al., 
(2001) establecen conexiones adicionales entre la propagaciôn ciclica e ideas de la fi¬ 
sica estadistica. 

La conexion entre la probabilidad y los lenguajes de primer orden la estudio prime- 
ro Carnap (1950). Gaifman (1964) y Scott y Krauss (1966) definieron un lenguaje en el 
que las probabilidades podian asociarse con oraciones de primer orden y para el cual los 
modelos eran medidas de probabilidad sobre mundos posibles. Dentro de la IA, esta idea 
se desarrollô para la lôgica proposicional por Nilsson (1986) y para la lôgica de primer 
orden por Halpern (1990). La primera investigaciôn amplia del tôpico de la representa- 
ciôn del conocimiento con taies lenguajes fue realizada por Bacchus (1990), y el articulo 
de Wellman et al., (1992) estudia las primeras aproximaciones de implementaciôn ba- 
sadas en la construcciôn de redes bayesianas proposicionales équivalentes. Mas recien- 
temente, los investigadores han llegado a entender la importancia de las bases de 
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conocimiento complétas', esto es, bases de conocimiento que, como las redes bayesia- 
nas, definen una ünica distribuciôn de probabilidad conjunta sobre todos los mundos po- 
sibles. Los métodos para hacer esto se han basado en versiones probabilistas de la 
programacion logica (Poole, 1993; Sato y Kameya, 1997) o redes semânticas (Koller y 
Pfeffer, 1998). Los tipos de modelos probabilistas relacionales descritos en este capitu- 
lo se investigaron en profundida por Pfeffer (2000). Pasula y Russell (2001) estudian tan- 
to el topico de la incertidumbre relacional como la de la identidad dentro de los MPRs 
y el uso de inferencia con MCCM. 

Como se explicô en el Capitulo 13, los primeras sistemas probabilistas cayeron en 
desgracia a principios de los 70, dejando un vacio parcial que se rellenô con métodos 
alternativos. Los factores de certeza se inventaron para el sistema experto médico Mycin 
(Shortliffe, 1976), y que se buscô tanto como una solucion de ingenierfa como un mo- 
delo de juicio humano con incertidumbre. La coleccion Rule-Based Expert Systems 
(Buchanan y Shortliffe, 1984) proporcionan una compléta vision de conjunto de Mycin 
y sus descendientes ( véase también Stefik, 1995). David Heckerman (1986) demostrô 
que una version levemente modificada de los câlculos de los factores de certeza consi- 
gue resultados probabilistas correctos en algunos casos, pero resultados de sobreajuste 
de la evidencia en otros casos. El sistema experto PROSPECTOR (Duda et ai, 1979) 
uso un enfoque basado en réglas en el que las réglas se justificaban bajo supuestos (ra- 
ras veces sostenibles) de independencia global. 

La teoria de Dempster-Shafer se origina con el articulo de Arthur Dempster 
(1968) en el que se propone una generalizacion de la probabilidad a valores de in- 
tervalo y una régla de combinacion para usarlos. El trabajo posterior de Glenn Sha- 
fer (1976) encaminô a la teoria de Dempster-Shafer a que se contemplara como un 
enfoque competitivo a la probabilidad. Ruspini et ai, (1992) analizan la relacion en¬ 
tre la teoria de Dempster-Shafer y la teoria estândar de la probabilidad. Shenoy 
(1989) ha propuesto un método para tomar decisiones con las funciones de creencia 
de Dempster-Shafer. 

Los conjuntos difusos los desarrollo Lotfi Zadeh (1965) en respuesta a la dificultad 
detectada para suministrar entradas exactas a los sistemas inteligentes. El texto de Zim¬ 
mermann (2001) proporciona una introduccion detallada a la teoria de los conjuntos di¬ 
fusos; articulos sobre aplicaciones difusas se recogen en Zimmermann (1999). Como 
mencionamos en el tema, la logica difusa a menudo se ha visto incorrectamente como 
un competidor directo de la teoria de la probabilidad, cuando de hecho va dirigido a un 
conjunto diferente de topicos. La teoria de la posibilidad (Zadeh, 1978) se introdujo 
para tratar la incertidumbre en sistemas difusos y tiene mucho mas en comün con la pro¬ 
babilidad. Dubois y Prade (1994) dan un estudio riguroso de las conexiones entre la teo¬ 
ria de la posibilidad y la teoria de la probabilidad. 

El renacer de la probabilidad se debe principalmente del descubrimiento de las re¬ 
des bayesianas como un método para la representacion y utilizaciôn de la informacion 
de independencia condicionada. Este resurgimiento no vino sin lucha; el articulo agre- 
sivo «En Defensa de la Probabilidad» (In Defense ofPwbability) de Peter Cheeseman 
(1985) y su posterior articulo «Una Indagacion en la Comprension de los Computado- 
res» (An Inquiry Info Computer Understanding) (Cheeseman, 1988, con comentarios) 
da algo del sabor del debate. Una de las principales objeciones de los lôgicos era que 
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para exigir los câlculos numéricos que la teoria de la probabilidad consideraba, no era 
évidente a la introspeccion y suponian un nivel poco realista de la exactitud de nuestro 
conocimiento incierto. El desarrollo de redes probabilistas cualitativas (Wellman, 
1990a) proporciono una abstracciôn puramente cualitativa de las redes bayesianas, uti- 
lizando la nocion de influencias positivas y negativas entre variables. Wellman mues- 
tra que en muchos casos tal informacion es suficiente para toma de decisiones ôptimas 
sin la necesidad de especificaciones exactas de los valores de probabilidad. El trabajo 
de Adnan Darwiche y Matt Ginsberg (1992) extraen las propiedades bâsicas del con- 
dicionamiento y la combinacion de evidencia a partir de la teoria de la probabilidad y 
muestran que las propiedades pueden también aplicarse a la logica y al razonamiento 
por defecto. 

El sistema de tratamiento de enfermedad cardiaca descrito en el capitulo se debe a 
Lucas (1996). Otras aplicaciones con redes bayesianas incluyen el trabajo de Micro¬ 
soft sobre la deduccion de objetivos del usuario de computador a partir de sus accio- 
nes (Horvitz et al., 1998) y sobre filtracion de correo electronico basura (Sahami et al., 
1998), el trabajo del Electric Power Research Institute sobre monitorizacion de gene- 
radores de potencia (Morjaria et al., 1995), y el trabajo de la NASA sobre la visuali- 
zacion de informacion de tiempo-critico en el Mission Control de Houston (Horvitz y 
Barry, 1995). 

Algunos de los primeros articulos importantes sobre métodos de razonamiento con 
incertidumbre en IA estân recogidos en la antologia Readings in Uncertain Reasoning 
(Shafer y Pearl, 1990) y Uncertainty in Artificial Intelligence (Kanal y Lemmer, 1986). 
La publicaciôn mas importante en el crecimiento de las redes bayesianas fue sin duda 
el libro Probabilistic Reasoning in Intelligent Systems (Pearl, 1988). Otros libres exce- 
lentes, incluyendo Lauritzen (1996), Jensen (2001) y Jordan (2003), contienen material 
mas reciente. Nuevas investigaciones sobre razonamiento probabilista aparecen tanto en 
los articulos de IA de la linea central como Artificial Intelligence y la Journal of AI Re¬ 
search, como en articulos mas especializados, taies como International Journal ofAp- 
proximate Reasoning. Muchos articulos sobre modelos grâfîcos, que incluyen a las redes 
bayesianas, aparecen en revistas de estadistica. Las publicaciones de las conferencias Un¬ 
certainty in Artificial Intelligence (UAI), Neural Information Processing Systems (NIPS), 
y Artificial Intelligence and Statistics (AISTATS) son excelentes fuentes para la inves- 
tigacion actual. 



EJERCICIOS 

14,1 Considéré la red para diagnostico de coches que se muestra en la Figura 14.18. 

a) Extienda la red con las variables booleanas TiempoHelado y MotorArranque. 

b) Proporcione tablas de probabilidad condicionadas razonables para todos los 
nodos. 

c ) / Cuântos valores independientes estân incluidos en la distribucion de probabi¬ 
lidad conjunta para los ochos nodos booleanos, suponiendo que no se conocen 
las relaciones de independencia condicional que se cumplen entre ellos? 
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d) ^Cuântos valores de probabilidad independientes incluyen sus tablas de la red? 

e) La distribucion condicionada para Arranca podrfa describirse como una distri¬ 
bucion ruido-AND. Defina esta familia en general y relaciônela con la distri¬ 
bucion ruido-OR. 

14.2 En la central eléctrica nuclear de su localidad hay una alarma que percibe cuân- 
do un medidor de temperatura supera un umbral dado. El medidor cuantifica la tempé¬ 
rature del nücleo. Considéré las variables booleanas A (la alarma suena), F A (la alarma 
esta defectuosa), y F G (el medidor esta defectuoso) y los nodos multivaluados G (lectu¬ 
re del medidor) y T (temperatura actual del nücleo). 

a) Dibuje una red bayesiana para este dominio, dado que el medidor es mas cref- 
ble que falle cuando la temperatura del nücleo llegue a ser demasiado alta. 

b) ^Es esta red un poliârbol? 

c ) Suponga que hay solo dos posibles temperaturas actuales y medidas, normal y 
alta; la probabilidad de que el medidor de la temperatura correcta es x cuando 
esta funcionando, pero y cuando esta defectuoso. Proporcione la tabla de pro¬ 
babilidad condicionada asociada a G. 

d) Suponga que la alarma funciona correctamente a no ser que esté defectuosa, en 
cuyo caso nunca suena. Proporcione la tabla de probabilidad condicionada aso¬ 
ciada a A. 

e) Suponga que la alarma y el medidor estân funcionando y la alarma suena. Cal¬ 
cule una expresion para la probabilidad de que la temperatura del nücleo sea 
demasiado alta, en términos de las diversas probabilidades condicionadas de 
la red. 

14.3 Dos astronomos en diferentes partes del mundo toman las medidas M x y M, del 
nümero de estrellas N de alguna pequena région del cielo, utilizando sus telescopios. Nor- 
malmente, hay una pequena posibilidad e de error de hasta una estrella en cada direc- 




608 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


cion. Cada telescopio puede también (con una probabilidad/mucho mas pequena) es- 
tar mal del foco (sucesos F 1 y F 2 ), en cuyo caso el cicntffico descontarâ très o mas estrellas 
(o, si N es menor que très, fracasa del todo para detectar cualquier estrella). Considéré 
las très redes que se muestrean en la Figura 14.19. 

a) /Cuâl de estas redes bayesianas son representaciones correctas (pero no nece- 
sariamente eficientes) de la informaciôn precedente? 

b) /,Cuâl es la mejor red? Expliquelo. 

c ) Escriba una distribucion condicionada para P(M t \N), para cl caso dondc N e {1, 
2, 3} yM,e {0, 1, 2, 3, 4). Cada entrada de la distribucion condicionada debe- 
rfa expresarse como una funcion de los parâmetros e y/o /. 

d) Suponga que M l = 1 y M 2 = 3. /Cuâlcs son los nümeros posibles de estrellas 
si suponemos que no hay en principio restricciones sobre los valores de N7 

e ) /Cuâl es el nümero de estrellas mâs probable, dadas estas observaciones? Ex- 
plicar como calcular esto, o, si no es posible calcularlo, explique qué informa- 
cion adicional es necesaria y como afectaria al resultado. 



14.4 Considéré la red que se muestra en la Figura 14.19(ii), y suponga que los teles- 
copios trabajan idénticamente. N e {1, 2, 3 ( y M x , M 2 e {0, 1, 2, 3,4 ), con las TPCs sim- 
bolicas que se definieron en el Ejercicio 14.3. Utilizando el algoritmo por enumeracion, 
calcule la distribucion de probabilidad P(W|M 1 = 2, M 2 = 2). 

14.5 Considéré la familia de redes gaussinas lineales, como se enseno en el Apartado 14.3. 

a) En una red de dos variables, sea X 1 el padre de X 17 suponga que tenemos para 
X una gaussiana a priori, y sea P(A 2 | A,) una distribucion gaussiana lineal. De- 
muestre que la distribucion conjunta P(X V A,) es una gaussiana multivarible, y 
calcule su matriz de covarianza. 

b) Pruebe por induccion que la distribucion conjunta para una red gaussiana line¬ 
al general de variables X v ..., X n es también una gaussiana multivarible. 

14.6 La distribucion probit definida en el Apartado 14.3 describe la distribucion de pro¬ 
babilidad para un hijo booleano, dado un solo padre continuo. 

a) /Como debe extenderse la definicion para abarcar varios padres continuos? 
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b) / Corno debe extenderse para manejar una variable hija multivaluadal Considéré 
tanto los casos donde los valores del hijo estân ordenados (como en la selecciôn 
de una velocidad mientras conduce, dependiendo de la velocidad, desnivel, 
aceleraciôn deseada, etc.) como los casos en los que estân desordenados (como 
en la selecciôn del autobus, tren, o coche para ir al trabajo). [Pista: Considéré 
formas para dividir los valores posibles en dos conjuntos, para imitar una va¬ 
riable booleana.] 

14.7 Este ejercicio tiene que ver con el algoritmo de eliminaciôn de variables de la Fi¬ 
gura 14.10. 

a) La Secciôn 14.4 aplica la eliminaciôn de variables a la pregunta 

P(Robo\JohnLlama — verdad, MaryLlama = verdad) 

Desarrolle los câlculos indicados y compruebe que la respuesta es correcta. 

b) Cuente el nümero de operaciones aritméticas realizadas, y compârelo con el nü- 
mero résultante de aplicar el algoritmo por enumeraciôn. 

c) Suponga que una red tiene la forma de una cadena : una secuencia de variables 
booleanasZj,. ..,X lt donde Padres(X j )={X j _ i } para i = 2,..., n. /Cuâl es la com- 
plejidad de la computaciôn de P(AjA n = verdad ) utilizando enumeraciôn? /Y 
usando eliminaciôn de variables? 

d) Pruebe que la complejidad en la ejecuciôn de la eliminaciôn de variables en re- 
des poliârboles es lineal en el tamano del ârbol para cualquier ordenaciôn de va¬ 
riables consistente con la estructura de la red. 

14.8 Investigue la complejidad de la inferencia exacta en redes bayesianas generales: 

a) Pruebe que cualquier problema 3-SAT puede reducirse a inferencia exacta en una 
red bayesiana constmida para representar el problema particular, y asi que la infe¬ 
rencia exacta es NP-duro. [ Pista: Considéré una red con una variable para cada sim- 
bolo proposiciôn, uno para cada clâusula, y uno para la conjunciôn de clâusulas.] 

b) El problema de contar el nümero de asignaciones de satisfacciôn para un pro¬ 
blema 3-SAT es #P-completo. Demuestre que la inferencia exacta es al menos 
tan duro como éste. 


DISTRIBUCIÔN 

ACUMULATIVA 


14.9 Considéré el problema de generaciôn de una muestra aleatoria de una sola variable 
a partir de una distribuciôn concreta. Puede suponer que un generador de nümeros alea- 
torios esta disponible y que devuelve un nümero aleatorio distribuido uniformemente en¬ 
tre 0 y 1. 

a) Sea X una variable discreta con P(X = x) = p f para i e {1, k}. La distribu¬ 

ciôn acumulativa para X da la probabilidad de que X e [x v ..., x } para cada 
posible j. Explique como calcular la distribuciôn acumulativa en tiempo O(k) y 
como generar un muestra simple de A a partir de ella. / Puede esto ültimo ha- 
cerse en un tiempo menor a 0{k)l 

b) Ahora suponga que queremos generar N muestras de X, donde N ki> k. Expli¬ 
que como hacer esto con un tiempo esperado de ejecuciôn por muestra que sea 
constante (es decir, independiente de k). 

c) Ahora considéré una variable con valores continuos con una distribuciôn para- 
metrizada (por ejemplo, la Gaussiana). / Como pueden generarse muestras a par¬ 
tir de esa distribuciôn? 
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d ) Suponga que quiere preguntar por una variable con valores continuos y esta usan- 
do un algoritmo de muestreo como Ponderacion-Verosimilitud para hacer la 
inferencia. /Como deberia modificar el proceso de responder a preguntas? 

14.10 El manto de Markov de una variable esta definido en el Apartado 14.2. 

a) Pruebe que una variable es independiente de todas las demâs variables de la red, 
dado su manto de Markov. 

b) Deduzca la ecuaciôn (14.11). 

14.11 Considéré la pregunta V(Lluvia\Aspersor — verdad, HierbaHûmeda = verdad) 
para la Figura 14.11 (a) y como el MCCM puede responderla. 

a) /Cuântos estados tiene la cadena de Markov? 

b) Calcule la matriz de transiciôn Q formada por q(y —> y') para todo y, y'. 

c) /Que représenta Q 2 , la matriz de transiciôn al cuadrado? 

d) /Y Q", cuando n —> °°? 

e ) Explique como hacer inferencia probabilista en redes bayesianas, suponiendo 
que Q" esta disponible. /Es éste un modo prâctico para hacer inferencia? 

14.12 Très equipos de fütbol A,ByC, juegan cada uno con el otro una sola vez. Cada 
partido es entre dos equipos, y puede ser ganado, empatado o perdido. Cada equipo tie¬ 
ne un grado desconocido y fijo de su calidad (un entero que va de 0 a 3) y el resultado 
del partido dépende en probabilidad de la diferencia en calidad entre los dos equipos. 

a) Construya un modelo probabilista relacional para describir el dominio, y proponga 
valores numérico para todas las distribuciones de probabilidad necesarias. 

b) Construya la red bayesiana équivalente. 

c) Suponga que en los primeros dos partidos A dé una paliza a B y empata con C. 
Usando un algoritmo de inferencia exacto de sus elecciôn, calcule la distribu- 
ciôn posterior para el resultado del tercer partido. 

d) Suponga que hay n equipos en la liga y tenemos los resultados para todos los 
partidos menos el ültimo. /Como varia la complejidad de la predicciôn del ül- 
timo juego con respecta a nt 

e ) Estudie la aplicaciôn del MCCM a este problema. /Como de râpido converge 
en la prâctica y como de bien puede escalarse? 



Razonamiento 
probabilista en el tiempo 


Donde intentamos interprétai• el présente, entender el pasado, y quizâ predecir 
elfuturo, incluso cuando muy poco estâ claro cristalino. 


Los agentes en entornos inciertos deben ser capaces de quedarse con la pista del estado 
actual del entorno, al igual que deben hacerlo los agentes logicos. La tarea se hace mas 
difîcil por la percepcion parcial y ruidosa, y la incertidumbre respecto a como el entorno 
cambia en el tiempo. En el mejor de los casos, el agente sera capaz de obtener solo una 
estimacion probabilista de la situacion actual. Este capitule describe las representaciones 
y algoritmos de inferencia que hacen posible esa estimacion, basados en las ideas intro- 
ducidas en el Capitulo 14. 

El enfoque bâsico se describe en el Apartado 14.1: un mundo cambiante estâ mode- 
lado usando una variable aleatoria para cada aspecto del estado del mundo en cada mo- 
mento en el tiempo. Las relaciones entre estas variables definen como el estado evoluciona. 
El Apartado 15.2 define la tarea de inferencia bâsica y describe la estructura general de 
los algoritmos de inferencia para modelos temporales. Después describimos très tipos con¬ 
crètes de modelos: modelos ocultos de Markov, filtros de Kalman, y redes bayesianas 
dinâmicas (que incluyen a los modelos ocultos de Markov y a los filtros de Kalman como 
casos particulares). Finalmente, El Apartado 15.6 explica como los modelos probabilistas 
temporales forman el nücleo de los modernos sistemas de reconocimiento del habla. El 
aprendizaje représenta un papel fondamental en la construccion de todos estes modelos, 
pero un estudio detallado de los algoritmos de aprendizaje se dejarâ para la Parte VI. 


15.1 El tiempo y la incertidumbre 


Hemos desarrollado nuestras técnicas para razonamiento probabilista en el contexto de 
mundos estâticos, en los que cada variable aleatoria tiene un solo valor fijo. Por ejem- 
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plo, cuando se repara un coche, asumimos que si esta roto permanece roto durante el pro- 
ceso de diagnôstico; nuestro trabajo es deducir el estado del coche a partir de la evidencia 
observada, que también permanece fija. 

Ahora considéré un problema un poco diferente: tratamiento de un paciente diabé- 
tico. Como en el caso de la reparacion del coche, tenemos evidencias como las dosis re- 
cientes de insulina, la comida que se ha tomado, medidas de azücar en la sangre, y otras 
seriales fisicas. La tarea es evaluar el estado actual del paciente, incluyendo el actual ni- 
vel de azücar en la sangre y nivel de insulina. Dada esta informacion, el médico (o pa¬ 
ciente) toma una decision sobre el consumo de comida y la dosis de insulina del paciente. 
A diferencia del caso de la reparacion del coche, aqui los aspectos dinâmicos del pro¬ 
blema son esenciales. Los niveles de azücar en la sangre y medidas de lo mismo pue- 
den cambiar râpidamente en el tiempo, dependiendo de la comida que uno tome y la 
insulina que se dosifique, de la actividad metabolica de uno, el momento del dia, etc. 
Para valorar el estado actual a partir del historial de la evidencia y para predecir las con- 
secuencias de los tratamientos, debemos modelar estos cambios. 

Las mismas consideraciones surgen en muchos otros contextos, desde el segui- 
miento de la actividad econômica de una naciôn, dadas unas estadisticas parciales y apro- 
ximadas, hasta la comprensiôn de una secuencia de palabras habladas, dadas las 
mediciones acüsticas ruidosas y ambiguas. / ; C6mo pueden modelarse situaciones dinâ- 
micas como estas? 


Estados y observaciones 

El enfoque bâsico que adoptaremos es similar a la idea subyacente en el câlculo de si¬ 
tuaciones, como se explicô en el Capitulo 10: el proceso de cambio puede verse como 
una sérié de fotos instantâneas, cada una de las cuales describe el estado del mundo en 
cortes de tiempo un momento particular. Cada sérié de fotos instantâneas, o cortes de tiempo, contiene 
un conjunto de variables aleatorias, algunas de las cuales son observables y otras no. Por 
simplicidad, supondremos que el mismo subconjunto de variables es observable en cada 
corte (aunque esto no es estrictamente necesario en nada de lo que sigue). Usaremos X, 
para denotar el conjunto de variables del estado no observables en el instante t y E, para 
denotar el conjunto de variables de evidencia observables. La observaciôn en el instan¬ 
te t es E ( = e, para algün conjunto de valores e,. 

Considéré el siguiente ejemplo mas que simplificado: suponga que es un guarda de 
seguridad en alguna instalacion subterrânea sécréta. Quiere saber si esta lloviendo hoy, 
pero su ünica informacion del mundo exterior se produce cada manana cuando ve al 
director entrando con, o sin, paraguas. Para cada dia t, el conjunto E, contiene asi una sola 
variable de evidencia U, (si el paraguas esta présente), y el conjunto X, contiene una 
sola variable del estado R t (si esta lloviendo). Otros problemas pueden implicar conjuntos 
mas grandes de variables. En el ejemplo de la diabètes, debemos tener variables de evi¬ 
dencias como MedidaAzucarSangre ,, y NumeroPulsasiones ,, y variables de estado como 
AzucarSangre t y ContenidoEstomascal /. 

1 Nôtese que AzucarSangre, y MedidaAzucarSangre, no son la misma variable; as! es como nos ocupamos 
de las medidas ruidosas de cantidades tangibles. 
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ESTACIONARIO 


HIPÔTESIS DE 
MARKOV 


PROCESO DE MARKOV 


PROCESO DE MARKOV 
DE PRIMER ORDEN 


El intervalo entre los cortes de tiempo también dépende del problema. Para la mo- 
nitorizaciôn de diabètes, un intervalo adecuado séria una hora en vez de un dia. En este 
capitulo, supondremos generalmente un intervalo finito y fijo; esto significa que el tiem¬ 
po puede etiquetarse con enteros. Supondremos que la secuencia de estados empieza en 
t — 0; por varias razones sin interés, supondremos que la evidencia empieza a llegar en 
t = 1 en vez de en t = 0. Asi, nuestro mundo del paraguas esta representado por las va¬ 
riables de estado R 0 , R v R 2 , ... y las variables de evidencia U 0 , U v U 2 , .... Usaremos la 
notacion a:b para denotar la secuencia de enteros de a hasta b (inclusive), y la notacion 
X a . h para denotar el correspondiente conjunto de variables de X a hasta X h . Por ejemplo, 
U V3 corresponde a las variables U v U 2 , U 3 . 

Procesos estacionarios e hipôtesis de Markov 

Con el conjunto de variables de estado y de evidencia de un problema dado, el siguien- 
te paso es determinar las dependencias entre las variables. Podriamos seguir el proce- 
dimiento establecido en el Capitulo 14, poner las variables en algün orden y preguntar 
cuestiones sobre la independencia condicional de los predecesores, dado algün conjun¬ 
to de padres. Una eleccion obvia es ordenar las variables en su orden temporal natural, 
ya que la causa usualmente précédé al efecto y preferimos ahadir las variables en el or¬ 
den causal. 

Sin embargo, chocariamos râpidamente con un obstâculo: el conjunto de variables 
es no acotado, ya que incluye las variables de estado y de evidencia para cada corte de 
tiempo. Esto en realidad créa dos problemas: primero, podriamos tener que especificar 
un nümero no acotado de tablas de probabilidad condicionadas, una para cada variable 
de cada corte; segundo, cada una podria implicar un nümero no acotado de padres. 

El primer problema esta resuelto suponiendo que los cambios del estado del mundo 
estân causados por un proceso estacionario, esto es, un proceso de cambios que esta 
controlado por leyes que no se cambian a si mismas en el tiempo. (No confundir esta¬ 
cionario con estâtico : en un proceso estâtico, el estado en si mismo no cambia.) En el 
mundo del paraguas, enfonces, la probabilidad condicionada de que el paraguas esta pré¬ 
sente, ~P(U t \Padres(U t )), es el mismo para todo t. Asi, supuesto que es estacionario, ne- 
cesitamos especificar las distribuciones condicionadas solo para las variables dentro de 
un corte de tiempo «representativo». 

El segundo problema, el de la manipulacion de un nümero de padres potencialmen- 
te infinito, se resuelve anadiendo lo que se llama hipôtesis de Markov, esto es, que el 
estado actual dépende solo de un conjunto finito de estados precedentes. Los procesos 
que verifican este supuesto lo estudio primero, en profundidad, el estadistico ruso An- 
drei Markov y se denominan procesos de Markov o cadenas de Markov. Los hay para 
todos los gustos: el mas simple es el proceso de Markov de primer orden, en el que 
el estado actual dépende solo del estado previo y no de los estados iniciales. En otras 
palabras, un estado es la informacion que usted necesita para hacer el futuro indépen¬ 
dante del pasado dado el estado actual. Usando nuestra notacion, la correspondiente afir- 
macion de independencia condicionada establece que, para todo t, 

P(X,|X 0 :f _j) = P(XjX f _,) 


(15.1) 





614 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


Asf, en un proceso de primer orden, las leyes que describen como el estado evoluciona 
en el tiempo estân contenidas integramente dentro de la distribuciôn condicionada 
PCXJX^), que llamamos modelo de transiciôn para procesos de primer orden 2 . El mo- 
delo de transiciôn para un proceso de Markov de segundo orden es la distribuciôn con¬ 
dicionada P(X f |X,_ 2 , X,_j). LaFigura 15.1 muestra las estructuras de las redes bayesianas 
correspondientes a los procesos de primer y segundo orden. 

Ademâs de restringir a los padres de las variables de estado X,, debemos restringir 
a los padres de la variable de evidencia E r Es tipico suponer que las variables de evi- 
dencia en el instante t dependen solo del estado actual: 

PCEJX*^, E 0: ,_j) = P(EjX,) (15.2) 

modelo sensor La distribuciôn condicionada P(E t |X f ) se llama modelo sensor (o, en ocasiones, mode¬ 
lo observaciôn), porque describe como los «sensores» (esto es, las variables de evidencia) 
se ven afectados por el estado actual del mundo. Note la direcciôn de la dependencia: 
la «flécha» va del estado a los valores del sensor porque el estado del mundo causa que 
los sensores tomen valores particulares. En el mundo del paraguas, por ejemplo, la llu- 
via causa que el paraguas esté présente. (El proceso de inferencia, por supuesto, va en 
la otra direcciôn; la distinciôn entre la direcciôn de las dependencias modeladas y la di¬ 
recciôn de la inferencia es una de las principales ventajas de las redes bayesianas.) 

Ademâs del modelo transiciôn y el modelo sensor, necesitamos especificar una pro- 
babilidad a priori P(X 0 ) de los estados en el instante 0. Estas très distribuciones, com- 
binadas con las afirmaciones de independencia condicionada de las ecuaciones (15.1) y 
(15.2), nos dan una especificaciôn de la distribuciôn conjunta compléta de todas las va¬ 
riables. Para cualquier t finita, tenemos 

t 

P(X 0 , X,.., X„ Ej..., E,) = P(X 0 ) n P(X,|X ; _ 1 )P(E,|X i .) 

1=1 

Las suposiciones de independencia corresponden a una estructura muy sencilla de la red 
bayesiana que describe el sistema compléta. La Figura 15.2 muestra la estmctura de red 
para el ejemplo del paraguas, incluyendo las distribuciones condicionadas para los mo- 
delos transiciôn y sensor. 



2 

“ El modelo de transiciôn es el anâlogo probabilista de los circuitos de actualizacion booleana del Capltulo 
7 y los axiomas estado-sucesor del Capftulo 10. 
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La estructura de la figura asume un proceso de Markov de primer orden, porque la 
probabilidad de llover se supone que dépende solo de si llovio el dia previo. Si tal su- 
posiciôn es razonable o no dépende del dominio en si mismo. La hipotesis de Markov 
de primer orden dice que las variables del estado contienen toda la informaciôn nece- 
saria para caracterizar la distribuciôn de probabilidad para el siguiente corte de tiempo. 
Algunas veces el supuesto es realmente cierto, por ejemplo, si una particula realiza un 
camino aleatorio camino aleatorio a lo largo del eje x, cambiando su posiciôn en ± 1 en cada paso a lo 
largo del tiempo, enfonces, usando la coordenada x como el estado, se tiene un proceso 
de primer orden. 

A veces la hipotesis es solo aproximada, como en el caso de predecir la lluvia solo 
en base de si llovio el dia anterior. Hay dos posibles ajustes si se comprueba que la apro- 
ximaciôn es demasiado inexacta: 

1. Aumentar el orden del modelo del proceso de Markov. Por ejemplo, podriamos 
hacer un modelo de segundo orden anadiendo Lluvia t _ 2 como un padre de Llu¬ 
via t , lo que debe dar un prediccion un poco mas adecuada (por ejemplo, en Palo 
Alto muy raramente llueve mas de dos dias seguidos). 

2. Aumentar el conjunto de variables del estado. Por ejemplo, podriamos anadir 
Estacion t para permitirnos incorporar registres histôricos de las estaciones llu- 
viosas, o podriamos anadir Temperatura ,, Humedad t , y Presion t para que poda- 
mos usar un modelo fisico de las condiciones de las lluvias. 

El Ejercicio 15.1 le pide que demuestre que la primera soluciôn (aumentar el orden) pue- 
de siempre reformularse como un aumento del conjunto de variables del estado. Nôte- 
se que anadir variables del estado debe mejorar la potencia de prediccion del sistema pero 
también incrementa los requisitos de prediccion: ahora tenemos que predecir también 
las variables nuevas. Asi, estamos buscando un conjunto de variables «autosuficiente», 
lo que realmente significa que tenemos que entender la «fisica» del proceso que se esta 
modelando. El requerimiento para el modelado exacto del proceso puede obviamente ate- 
nuarse si podemos anadir nuevos sensores (por ejemplo, las medidas de temperatura y 
presion) que proporcionen informaciôn directa sobre las nuevas variables del estado. 
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Considéré, por ejemplo, el problema de un robot que vaga de forma aleatoria en el 
piano X-Y. Uno podria proponer que la posiciôn y la velocidad son un conjunto suficiente 
de variables del estado: uno puede simplemente usar las leyes de Newton para calcular 
la posiciôn nueva, y que la velocidad puede cambiar de forma impredecible. Sin embargo, 
si el robot se impulsa por bateria, enfonces la descarga de la baterfa tenderia a tener un 
efecto sistemâtico en el cambio de velocidad. Ya que esto a su vez dépende de cuânta 
potencia se usé en todas las maniobras previas, la propiedad de Markov se viola. Pode- 
mos recuperar la propiedad de Markov incluyendo el nivel de carga Bateria t como una 
de las variables del estado que componen a X ( . Esto ayuda en la predicciôn del movi- 
miento del robot, pero a su vez requiere un modelo para la predicciôn de Bateria t a par¬ 
tir de Bateria t _ 1 y la velocidad. En algunos casos, eso puede hacerse con fiabilidad; la 
précision se mejorarfa anadiendo un nuevo sensor para el nivel de baterfa. 


15.2 Inferencia en modelos temporales 


Establecida la estructura de un modelo temporal genérico, podemos formular las tareas 
de inferencia bâsica que deben resolverse. 

• Filtrado o monitorizaciôn: esta es la tarea de calcular el estado de creencia (la 
distribuciôn a posteriori del estado actual, dada toda la evidencia hasta el momento). 
Esto es, deseamos calcular P(Xje l r ), suponiendo que la evidencia aparece en un 
flujo continuo desde t = 1. En el ejemplo del paraguas, esto podria significar cal¬ 
cular la probabilidad de llover hoy, dadas todas las observaciones hechas hasta el 
momento al portador del paraguas. El filtrado es lo que un agente racional nece- 
sita hacer para mantener la pista del estado actual para que puedan tomarse deci- 
siones racionales. ( Véase Capftulo 17.) Résulta que un câlculo casi idéntico 
proporciona la verosimilitud de la secuencia de la evidencia P(e ] ( ). 

predicciôn • Predicciôn: esta es la tarea de calcular la distribuciôn a posteriori del estado fu- 

turo, dada toda la evidencia hasta el momento. Esto es, deseamos calcular 
P(X, +i |e w ) para algün k > 0. En el ejemplo del paraguas, esto podria significar cal¬ 
cular la probabilidad de llover très dfas a partir de ahora, dadas todas las observa¬ 
ciones hechas hasta el momento al portador del paraguas. La predicciôn es ütil para 
la evaluaciôn de los posibles cursos de acciôn. 

• Suavizado, o retrospectiva: es la tarea de calcular la distribuciôn a posteriori del 
estado pasado, dada toda la evidencia hasta el momento présente. Esto es, desea¬ 
mos calcular P(Xje l7 ) para algün k tal que 0 =£ k < t. En el ejemplo del paraguas, 
podria significar calcular la probabilidad de que lloviô el ültimo miércoles, dadas 
todas las observaciones hechas hasta hoy al portador del paraguas. La retrospec¬ 
tiva proporciona un estimaciôn mejor del estado que estaba disponible en el mo¬ 
mento, porque el estado incorpora mas evidencia. 

• Explicaciôn mas crefble: dada una secuencia de observaciones, podemos desear 
encontrar la secuencia de estados mas crefbles que hayan generado esas observa¬ 
ciones. Esto es, deseamos calcular argmax X] P(X l7 |e w ). Por ejemplo, si el para¬ 
guas esta présente en cada uno de los très primeras dfas y esta ausente en el cuarto, 


SUAVIZADO 

RETROSPECTIVA 


FILTRADO 
MONITORIZACIÔN 
ESTADO DE CREENCIA 
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ESTIMACION 

RECURSIVA 


entonces la explicaciôn mas probable es que lloviô los très primeros dfas y no llo¬ 
viô el cuarto. Los algoritmos para esta tarea son ütiles en muchas explicaciones, 
incluyendo el reconocimiento del habla (donde la fïnalidad es encontrar la secuencia 
mas probable de palabras, dada una sérié de sonidos) y la reconstrucciôn de una 
sérié de bits transmitidos por un canal ruidoso. 

Ademâs de estas tareas, los métodos son necesarios para el aprendizaje de los modelos 
de transiciôn y sensor a partir de las observaciones. Al igual que con las redes bayesia- 
nas estâticas, el aprendizaje de redes de Bayes dinâmicas puede hacerse como el resul- 
tado de un producto de inferencias. La inferencia proporciona una estimacion de qué 
transiciones realmente ocunieron y de qué estados generaron la lectura de los sensores, 
y estas estimaciones pueden usarse para actualizar el modelo. Los modelos actualiza- 
dos proporcionan nuevas estimaciones, y el proceso itéra hasta converger. El proceso glo¬ 
bal es un caso del algoritmo EM o expectaciôn-maximizaciôn. (Véase Apartado 20.3.) 
Un punto a notar es que el aprendizaje requiere la inferencia de suavizado compléta, en 
vez de con filtrado, porque proporciona mejores estimaciones de los estados del proce¬ 
so. El aprendizaje con filtrado puede fracasar en la convergencia correcta; considéré, por 
ejemplo, el problema del aprendizaje para resolver homicidios: la restropectiva siempre 
es necesaria para inferir qué ocurriô en la escena del homicidio a partir de las variables 
observables. 

Los algoritmos para las cuatro tareas de inferencia enumeradas en el pârrafo ante- 
rior pueden describirse primero a un nivel genérico, independientemente del tipo parti- 
cular de modelo empleado. En las secciones correspondientes, se describirân mejoras 
especificas de cada modelo. 


Filtrado y predicciôn 

Comencemos con el filtrado. Mostraremos que esto puede hacerse a un estilo online sen- 
cillo: dado el resultado del filtrado en el instante t, uno puede calcular fâcilmente el re- 
sultado para t + la partir de la evidencia e, +1 . Esto es, 

P(X f+I |e 1:f+1 ) =/(e f+1 , P(Xje 1:f )) 

para alguna funciôn/. Este proceso a menudo se llama estimacion recursiva. Podemos 
ver el câlculo como el compuesto realmente de dos partes: primero, la distribuciôn del 
estado actual se proyecta desde t hasta t + 1 ; entonces se actualiza utilizando la nueva 
evidencia e f + v Este proceso de dos partes résulta realmente simple: 

P(X, +1 |e,. f+1 ) = P(X f+1 |e w , e f+1 ) (dividiendo la evidencia) 

= a P(e r+1 |X, +1 , e w ) P(X f+1 |e l7 ) (usando la régla de Bayes) 

= a P(e f+1 |X, +1 ) P(X, +1 |e w ) (por la propiedad de Markov en la evidencia) 

Aqui y en todo este capitulo, a es una constante de normalizaciôn utilizada para hacer 
que las probabilidades sumen 1. El segundo término, P(X, +1 |e w ), représenta una pre¬ 
dicciôn en un paso para el estado siguiente y el primer término actualiza esto con la nue¬ 
va evidencia; nôtese que P(e f+1 |X, +1 ) puede obtenerse directamente a partir del modelo 
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sensor. Ahora, obtendremos la prediccion en un paso para el estado siguiente condicio- 
nando al estado actual X ; : 


P(X, +1 |e 1:f+1 ) = a P(e, +1 |X, +1 ) 2 P(X, +1 |x„ e u )P(x Je 1:f ) 

\ t 

= aP(e f+1 |X f+1 ) 2 P(X, +1 |x,) P(x,|e!. f ) (usando la propiedad de Markov) 

X, 


(15.3) 


En la sumatoria, el primer factor es sencillamente el modelo de transicion y el segundo 
es la distribuciôn del estado actual. Asi, tenemos la formula recursiva deseada. Podemos 
pensar en la estimacion filtrada P(X,|e l f ) como un «mensaje» f H que se propaga hacia 
delante a lo largo de la secuencia, modificado por cada transicion y actualizado por cada 
observacion nueva. El proceso es: 


f 1:f+1 = a H acta-Apurante (f 1:t , e f+1 ) 

donde Hacia-Adelante pone en marcha la actualizacion descrita en la Ecuacion (15.3). 

Cuando todas las variables del estado son discretas, el tiempo para cada actualiza¬ 
cion es constante (es decir, independiente de t), y el espacio requerido es también cons¬ 
tante. (Las constantes dependen, por supuesto, del tamano del espacio de estados y el tipo 
concreto de modelo temporal en cuestion.) Los requerimientos de tiempo y espacio para 
la actualizacion tienen que ser constantes si un agente con memoria limitada mantiene 
la pista de la distribuciôn del estado actual a través de una secuencia no acotada de ob- 
servaciones. 

Ilustramos el proceso de filtrado para dos pasos en el ejemplo base del paraguas. (Véa- 
se Figura 15.2.) Supongamos que nuestro guardia de seguridad tiene alguna creencia a 
priori sobre si lloviô el dia 0, justo antes de que comience la secuencia de observacio- 
nes. Supongamos que ésta es P(/? 0 ) = (0,5, 0,5). Ahora procesamos las dos observacio- 
nes como sigue: 


• En el dia 1, el paraguas aparece, asi U ] = verdad. La prediccion desde t = 0 has- 
ta t = 1 es 


mù = 2 P(« 1 |r 0 )P(r 0 )P(f? 1 ) - (0,7, 0,3) X 0,5 + (0,3, 0,7) X 0,5 
r 0 

y actualizândola con la evidencia para t = 1 produce 

P^Jf/j) - aPiU^PÇR,) = a(0,9, 0,2) (0,5, 0,5) 
= a <0,45, 0,1) ~ (0,818, 0,182) 


(0,5, 0,5), 


• En el dia 2, el paraguas aparece, asi Uverdad. La prediccion desde t = 1 hasta 
t = 2 es 


P(/e 2 |t7j) = 2 P(7? 2 |r 1 )P(r 1 |f/ 1 )P(7î 2 ) = (0,7, 0,3) X 0,818 + <0,3, 0,7) 
X 0,182 « (0,627,0,373), 


y actualizândola con la evidencia para t = 2 produce 

P(tf,|[/ p U 2 ) = a P(C/ 2 |7î 2 )P(7î 2 |f/ 1 ) = a <0,9, 0,2) <0,627, 0,373) 
= a (0,565, 0,075) « (0,883, 0,117) 


Intuitivamente, la probabilidad de lluvia aumenta del dia 1 al dia 2 porque la lluvia per¬ 
siste. El Ejercicio 15.2(a) le pide que estudie esta tendencia mas a fondo. 


RAZONAMIENTO PROBABILISTA EN EL TIEMPO 619 


La tarea de la predicciôn puede verse sencillamente como un filtrado pero sin ana- 
dir la nueva evidencia. De hecho, el proceso de filtrado ya incorpora una predicciôn de 
un paso, y es fâcil deducir el siguiente cômputo recursivo para la predicciôn del estado 
en t + k + la partir de una predicciôn para t + k: 

P(X f+ * +1 |e 1:f ) = 2 P(X 

t+k+ 1 )P(x, + Je 1:; ) (15.4) 

X t+k 

Naturalmente, este câlculo involucra solo el modelo de transiciôn y no al modelo sensor. 

Es interesante considerar qué ocurre cuando intentamos predecir mas y mas aün en 
el futuro. Como muestra el Ejercicio 15.2(b), la distribuciôn predictiva para la lluvia con¬ 
verge a un punto fijo (0,5, 0,5), después del cual permanece constante todo el tiempo. 
Esta es la distribuciôn estacionaria del proceso de Markov definida por el modelo de 
transiciôn. ( Véase también Apartado 14.5.) Se conoce un gran problema sobre las pro- 
tiempo de mezcla piedades de taies distribuciones y sobre el tiempo de mezcla (en lineas generales, el tiem¬ 
po necesario para alcanzar el punto fijo). En términos prâcticos, esto conduce al fracaso 
de cualquier intento de predecir el estado actual para un numéro de pasos que sea ma- 
yor que una fracciôn pequena del tiempo de mezcla. Cuanta mas incertidumbre haya en 
el modelo de transiciôn, mas corto sera el tiempo de mezcla y mas confuso el futuro. 

Ademâs del filtrado y la predicciôn, podemos usar un método recursivo hacia de- 
lante para calcular la verosimilitud de la secuencia de la evidencia, P(e Vl ). Esta es una 
cantidad ütil si queremos comparar diferentes modelos temporales que puedan produ- 
cir la misma secuencia de evidencia; por ejemplo, en el Apartado 15.6, comparamos 
diferentes palabras que pueden producir la misma secuencia de sonido. Para esta re- 
cursiôn, usamos un mensaje de verosimilitud € 1 . f =P(X ( ,e w ). Es un ejercicio sencillo de- 
mostrar que 

4,+i = Hacia-Adelante (£ Vt , e (+1 ) 

Calculada fj.,, obtenemos la versosimilitud real sumando en X f : 

4, = = 2 4,(4 (15.5) 

x r 


Suavizado 

Como dijimos anteriormente, el suavizado es el proceso de calcular la distribuciôn de 
los estados pasados dada la evidencia hasta el estado présente; esto es, P(Xje w ) para 
1 =s k < t. (Véase Figura 15.3.) Esto se hace por conveniencia en dos partes, conside- 
rando la evidencia hasta k y la evidencia desde k + 1 hasta t, 

P(Xje 1:f ) — P(Xje 1: *, e t+1:( ) 

= a P(X j Je 1 . t )P(e i+1 .JX t ,e 1 . ifc ) (usando la régla de Bayes) 

= a P(X t |e 1 . jt )P(e i+1 . f |X^ (usando independencia condicional) 

— a fj./4+j.p (15.6) 

donde hemos definido un mensaje «hacia atrâs» b i+1 ., = P(e /;+ W |X ; J, anâlogo al men¬ 
saje hacia delante f l jt . El mensajes hacia delante fj. t puede calcularse por filtrado hacia 
delante de 1 hasta k, como viene en la Ecuaciôn (15.3). Résulta que el mensaje hacia 
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atrâs b ,. w puede calcularse por un proceso recursivo que se ejecuta hacia atrâs a par¬ 
tir de t: 

p (e* + i: f |X*) = 2 P(e k+l:t Ix^, X A . + i)P(x, +1 |X,) (condicionando sobre X^» 

x *+i 

— 2 / > (e yt+1 .Jx Â:+1 )P(x^ +1 |X yt ) (por independencia condicional) 

x *+i 

— 2 Pi^k+l’ e r+ 2 :îl X r+l) P ( X <:-n|X J fc) 

x t+1 

= 2 P(e Jfc+ i|x t+1 )P(e t+2 Jx t+I )P(x i+1 |X i ), (15.7) 

x *+1 

donde el ültimo paso se obtiene por la independencia condicional de e / + ] y e i+2 .,, dada 
X A+1 . De los très factores de la sumatoria, el primera y el tercero se obtienen directamente 
del modelo, y el segundo es la «llamada recursiva». Usando la notacion de mensajes, te- 
nemos 

*W = Hacia-Atrâs (b A+ 2 :î ,e A+1:( ) 

donde Hacia-Atrâs implémenta la actualizacion descrita en la Ecuacion (15.7). Como 
con el recursividad hacia delante, el tiempo y el espacio necesarios para cada actualiza¬ 
cion son constantes y asi independientes de t. 

Ahora podemos ver que los dos términos de la Ecuacion (15.6) pueden calcular¬ 
se por recursividad a lo largo del tiempo, uno se ejecuta hacia delante desde 1 hasta 
k usando la ecuacion de filtrado (15.3) y el otro se ejecuta hacia atrâs desde t hasta 
k + 1 y usando la Ecuacion (15.7). Notese que la fase hacia atrâs estâ inicializada con 
b ,+ i :f = P(e f+ JX ,) = 1, donde 1 es un vector de unos. (Ya que e ;+l . ( es una secuencia 
vacia, la probabilidad de acecho es 1.) 

Apliquemos ahora este algoritmo al ejemplo del paraguas, calculada la estimaciôn 
suavizada de la probabilidad de que llueva en t = 1, dadas las observaciones del para¬ 
guas en los dias 1 y 2. De la Ecuacion (15.6), esto viene dado por 

P^jlt/p U 2 ) = a P(7î 1 |f/ 1 )P([/ 2 |iî I ) (15.8) 

El primer término ya sabemos que es (,818, ,182), obtenido por el proceso de filtrado 
hacia delante descrito anteriormente. El segundo términos puede calcularse aplicando 
la recursividad hacia atrâs de la Ecuacion (15.7): 

P(E/ 2 |/? i ) = 2 P(U 2 \r 2 )P( |r 2 )P(r 2 |fl,) = (0,9 X 1 X <0,7, 0,3» 

>2 

+ (0,2 X 1 X <0,3, 0,7» = <0,69, 0,41) 
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Colocando esto en la ecuacion (15.8), hallamos que la estimacion suavizada para la llu- 
via en el dia 1 es 


ALGORITMO HACIA 
DELANTE-ATRÂS 


P(/ïjt/p U 2 ) = a <0,818, 0,182) X <0,69, 0,41) « <0,883, 0,117) 

Asi, la estimacion suavizada es mayor que la estimacion filtrada <0,818) en este caso. Esto 
es porque el paraguas en el dia 2 hace mas creible que haya llovido en el dia 2; a su vez, 
ya que la lluvia tiende a persistir, eso hace mas creible que haya llovido en el dia 1. 

Tanto las recursividades hacia delante y hacia atrâs necesitan una cantidad constante 
de tiempo por paso; asi, el tiempo de complejidad del suavizado con respecta a la evi- 
dencia e w es 0(t). Esta es la complejidad para el suavizado en un paso de tiempo con¬ 
crète k. Si queremos suavizar la secuencia compléta, un método obvio es simplemente 
ejecutar el proceso de suavizado compléta una vez para cada paso de tiempo que va a 
ser suavizado. Esto tiene como resultado una complejidad de 0{t 2 ). Una estrategia me- 
jor usa una aplicacion muy simple de la programacion dinâmica para reducir la com¬ 
plejidad a 0(t). Una pista aparece en el anâlisis precedente del ejemplo del paraguas, 
donde éramos capaces de reutilizar el resultado de la fase de filtrado hacia delante. La 
clave para el algoritmo de tiempo-lineal es grabar el resultado del filtrado hacia de¬ 
lante sobre la secuencia compléta. Enfonces ejecutamos la recursividad hacia atrâs des- 
de t retrocediendo hasta 1, calculando la estimacion suavizada en cada paso k desde el 
mensaje hacia atrâs calculado b i+l t y el mensaje hacia delante almacenado f l jt . El al¬ 
goritmo, adecuadamente llamado algoritmo hacia delante-atrâs, se muestra en la Fi¬ 
gura 15.4. 

El lector avezado habrâ descubierto que la estructura de la red bayesiana que se mues¬ 
tra en la Figura 15.3 es un poliârbol segün la terminologia del Capitulo 14. Esto signi- 
fica que una aplicacion sencilla del algoritmo basado en grupos también conduce a un 
algoritmo de tiempo-lineal que calcula estimaciones suavizadas para la secuencia ente¬ 
ra. El algoritmo hacia delante-atrâs es de hecho un caso particular del algoritmo de pro- 


funciôn Hacia Delante-Atrâs (ev, priori) devuelve un vector de distribuciones de probabilidad. 
entradas: ev, un vector de valores de evidencia para los pasos 1 

priori, la distribucion a priori sobre los estados iniciales, P(X 0 ) 
variables locales: fv, un vector de mensajes hacia delante para los pasos 0 

b, una representaciôn del mensaje hacia atrâs, inicialmente todos ls 
sv, un vector de estimaciones suavizadas para los pasos 1 

fv[0] ■*— priori 
desde i = 1 hasta t hacer 
fv[/] <— Hacia-Delante (fv[i-l],ev[i]) 
desde i = t retrocediendo hasta 1 hacer 
svp] «— Normalizar (fvp] X b) 
b <— Hacia-Atras (b,ev[/]) 
retorna sv 


Figura 15.4 El algoritmo hacia delante-atrâs para calcular probabilidades posteriores de una se¬ 
cuencia de estados dada una secuencia de observaciones. Los operadores Hacia-Delante y Ha- 
CIA-Atrâs estân definidos por las Ecuaciones (15.3) y (15.7), respectivamente. 
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SUAVIZADO DE 
LAPSO-FIJO 


pagaciôn de poliârboles usado con los métodos basados en grupos (aunque los dos fue- 
ron desarrollados independientemente). 

El algoritmo hacia delante-atrâs constituye la columna vertébral de los métodos com- 
putacionales empleados en muchas aplicaciones que tratan con secuencias de observa- 
ciones ruidosas, yendo desde el reconocimiento del habla hasta el rastreo de radares de 
aviones. Como serialamos, tiene dos desventajas prâcticas. La primera es que su com- 
plejidad en espacio puede ser demasiado alta para aplicaciones donde el espacio de es- 
tados es grande y las secuencias son largas. Usa espacio 0(|f|?) donde |f| es el tamario de 
la representaciôn del mensaje hacia delante. El requerimiento de espacio puede reducir- 
se a 0(|f| log t) con un incremento simultâneo en la complejidad temporal por un factor 
de log t , como se muestra en el Ejercicio 15.3. En algunos casos (véase Apartado 15.3), 
un algoritmo de espacio-constante puede usarse sin penalizaciôn en el tiempo. 

El segundo inconveniente del algoritmo bâsico es que necesita modificarse para traba- 
jar en un escenario online donde las estimaciones suavizadas deben calcularse para codes 
de tiempo iniciales conforme se van anadiendo nuevas observaciones al final de la secuen- 
cia. La necesidad mas comün es la del suavizado de lapso-fijo, que necesita calcular la es- 
timaciôn suavizada P(X,_Je,. f ) para un cl fijado. Esto es, el suavizado se hace para los d pasos 
de code de tiempo comenzando desde el tiempo actual t; conforme t se incrementa, el sua¬ 
vizado tiene que mantenerse. Obviamente, podemos ejecutar el algoritmo hacia delante-atrâs 
sobre la «ventana» de d-pasos conforme se anada cada nueva observaciôn, pero esto es in- 
eficiente. En el Apartado 15.3, veremos que el suavizado de lapso-fijo puede, en algunos ca¬ 
sos, hacerse en tiempo constante por actualizaciôn, independientemente del lapso d. 


Encontrar la secuencia mas probable 

Suponga que [verdad, verdad, falso, verdad, verdad] es la secuencia de las observaciones 
del paraguas para los primeras cinco dias de trabajo para el guardia de seguridad. /Cuâl es 
la secuencia del tiempo climatolôgico mas probable que explique esto? / La ausencia del pa¬ 
raguas el dia 3 significa que no estaba lloviendo, o el director olvidô traerlo? Si no llovio el 
tercer dia, quizâ (como el tiempo tiende a persistir) no llovio el dia 4 tampoco, pero el direc¬ 
tor trajo el paraguas por si acaso. En total hay 2 5 posibles secuencias de tiempo que podria- 
mos escoger. / Hay un modo de encontrar la mas probable que no sea enumerarlas todas? 

Una aproximaciôn que podriamos intentar es el siguiente procedimiento de tiempo- 
lineal: usar el algoritmo de suavizado para encontrar la distribuciôn a posteriori para el 
tiempo climâtico en cada paso de tiempo; enfonces construir la secuencia, usando en cada 
paso el tiempo climâtico mâs probable atendiendo a la posteriori. Tal aproximaciôn de- 
beria apagar las campanas de alarma en la cabeza del lector ya que las a posteriori cal- 
culadas por suavizado son distribuciones sobre pasos de tiempo individuelles, mientras 
que para encontrar la secuencia mâs probable debemos considerar probabilidades con- 
juntas sobre todos los pasos de tiempo. Los resultados pueden de hecho ser completa- 
mente diferentes. (Véase Ejercicio 15.4). 

Hay un algoritmo de tiempo-lineal para encontrar la secuencia mâs probable, pero re¬ 
quière unas pocas ideas mâs. Se basa en la misma propiedad de Markov que condujeron a 
los algoritmos eficientes para el filtrado y el suavizado. El modo mâs sencillo para pensar 
en el problema es ver cada secuencia como un camino a través de un grafo cuyos nodos 
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son los posibles estados en cada paso de tiempo. Tal grafo para el mundo del paraguas se 
muestra en la Figura 15.5(a). Ahora considéré la tarea de encontrar el camino mas proba¬ 
ble a través del grafo, donde la verosimilitud de cualquier camino es el producto de las pro- 
babilidades de transiciôn a lo largo del camino y las probabilidades de las observaciones 
dadas en cada estado. Nos centramos en caminos que alcancen el estado Lluvia s = ver- 
dad. Por la propiedad de Markov, se sigue que el camino mas probable hasta el estado Llu- 
via 5 = verdad consta del camino mas probable para algun estado en el instante 4 seguido 
por una transiciôn a Lluvia 5 = verdad ; y el estado en el instante 4 que llegue a formar par¬ 
te del camino hasta LIuvia 5 = verdad es cualquiera que maximice la verosimilitud de ese 
camino. En otras palabras, hay una relaciôn recursiva entre los caminos mâs probables para 
cada estado x (+1 y los caminos mâs probables para cada estado x t . Podemos escribir esta 
relaciôn como una ecuaciôn que conecta las probabilidades de los caminos: 

max PCXj,...,^, X, + 1 |e 1:;+1 ) = 

x l- x r 

= a P(e, +1 |X, +1 ) max (P(X, + 1 |x,) max P(Xj.x, +1 , xje w )) (15.9) 

X, y Xl ...X,_, J 

La Ecuaciôn (15.9) es idéntica a la ecuaciôn de filtrado (15.3) excepta que 

1. El mensaje hacia delante f, f = P(X,|e,., se reemplaza por el mensaje 

m w = max P(Xj.x f+1 , Xje w ) 

XJ...X,—J 

esta es, las probabilidades del camino mâs probable para cada estado x f ; y. 

2. La sumatoria sobre x t en la Ecuaciôn (15.3) se reemplaza por la maximizaciôn 
sobre x, en la Ecuaciôn (15.9). 


Lluvia j Lluvia n Lluvia 3 Lluvia 4 Lluvia 5 



m 1:2 "9:3 m l:4 m l:5 


Figura 15.5 (a) Posibles secuencias de estados para Lluvia , pueden verse como caminos a través 

de un grafo con posibles estados en cada paso de tiempo. (Los estados se muestran como nodos 
cuadrados para evitar confusion con los nodos de la red bayesiana.) (b) Las operaciones del algo- 
ritmo de Viterbi para la secuencia de observaciones del paraguas [verdad, verdad, falso, verdad, 
verdad ]. Para cada paso de tiempo t, mostramos los valores del mensaje m 1( , que da la probabili- 
dad de la mejor secuencia que alcanza a cada estado en el instante t. Ademâs, para cada estado, la 
flécha en negrita que llega a él indica su mejor predecesor. Siguiendo las fléchas en negrita en or- 
den inverso desde el estado m 15 se obtiene la secuencia mâs probable. 
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ALGORITMO DE 
VITERBI 


Asi, el algoritmo para calcular la secuencia mas probable es similar al filtrado: se eje- 
cuta hacia delante a lo largo de la secuencia, calculando el mensaje m en cada paso de 
tiempo, usando la Ecuaciôn (15.9). El progreso de este câlculo se muestra en la Figura 
15.5(b). Al final, se tendra la probabilidad de la secuencia mas probable que alcance cada 
uno de los estados finales. Uno puede asi fâcilmente seleccionar la secuencia global mas 
probable (el estado trazado en negrita). Para identificar la secuencia real, a diferencia de 
calcular su probabilidad, el algoritmo también necesita mantener punteros desde cada 
estado al mejor estado que lo produjo (mostrado en negrita); la secuencia se identifica 
siguiendo los punteros (en direcciôn inversa) desde el mejor estado final. 

El algoritmo que acabamos de describir se llama algoritmo de Viterbi, después de 
su inventor. Como el algoritmo de filtrado, su complejidad es lineal en t, la longitud de 
la secuencia. Sin embargo, a diferencia del filtrado su requerimiento de espacio es tam¬ 
bién lineal en t. Esto es porque el algoritmo de Viterbi necesita mantener los punteros 
que identifican la mejor secuencia que conducen a cada estado. 


15.3 Modelos ocultos de Markov 


MODELO OCULTO DE 
MARKOV 


En la secciôn anterior se desarrollaron algoritmos para el razonamiento probabilista tem¬ 
poral usando un marco general que era independiente de las expresiones concretas de 
los modelos de transiciôn y sensor. En esta secciôn y en las dos siguientes, discutimos 
modelos mas concretos y aplicaciones que ilustran la potencia de los algoritmos bâsi- 
cos y en algunos casos permite mas mejoras. 

Comenzamos con el modelo oculto de Markov, o MOM. Un MOM es un modelo 
probabilista temporal en el que cada estado del proceso esta definido por una unie a va¬ 
riable aleatoria discreta. Los valores posibles de la variable son los estados posibles del 
mundo. El ejemplo del paraguas descrito en la secciôn anterior es asi un MOM, ya que 
tiene una variable estado: Lluvia,. Se pueden anadir variables de estado adicionales a un 
modelo temporal manteniéndonos en el marco del MOM, pero solo si combinamos to- 
das las variables de estado en un sola «megavariable» cuyos valores son todas las posi¬ 
bles tuplas de valores de las variables de estado individuales. Veremos que la estructura 
limitada de los MOMs permite una implementaciôn matricial elegante y sencilla de to- 
dos los algoritmos bâsicos 3 . El Apartado 15.6 muestra como los MOMs se utilizan para 
el reconocimiento del habla. 


Algoritmos matriciales simplifïcados 

Con una sola variable de estado discreta X t podemos dar expresiones concretas a las re- 
presentaciones del modelo de transiciôn, el modelos sensor, y los mensajes hacia delante 
y hacia atrâs. Consideremos que la variable de estado X t tiene valores denotados por en- 


3 ... . , . . , 

El lector no familiarizado con las operaciones bâsicas con vectores y matrices podrfa desear consultar el 

Apéndice A antes de proseguir con esta secciôn. 
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teros 1,.. .,S, donde S es el nümero de posibles estados. El modelo de transiciôn P(ZjZ t _j) 
se convierte en una matriz T de dimension S X S, donde 


T ij = P(X r =j\X,_ l = i) 

Esto es, Tÿ es la probabilidad de una transiciôn desde el estado i hasta el estado j. Por 
ejemplo, la matriz de transiciôn para el mundo del paraguas es 

, /O 7 0 3 

T = W,|x,_,) = "3 

También ponemos el modelo sensor en forma matricial. En este caso, ya que el valor de 
la variable evidencia E t es conocida, digamos, e t , necesitamos usar solo esa parte del mo¬ 
delo que especifica la probabilidad de que e, aparezca. Para cada paso de tiempo t, cons- 
truimos una matriz diagonal O, cuyas entradas diagonales estân dadas por los valores 
P{e\X t = i ) y el resto de las entradas son 0. Por ejemplo, en el dia 1 del mundo del pa¬ 
raguas, U j = verdad, asf, de la Figura 15.2, tenemos 


Ahora, si usamos vectores columna para representar los mensajes hacia delante y hacia 
atrâs, los câlculos se convierten en sencillas operaciones matriciales-vectoriales. La 
ecuaciôn hacia delante (15.3) se transforma en: 


f 


l:f+l 


aO, +1 T T f 1: , 


(15.10) 


y la ecuaciôn hacia atrâs (15.7) se convierte en 


b*+i:f = TO t+1 b t+2;( (15.11) 

De estas ecuaciones, podemos ver que la complejidad en tiempo del algoritmo hacia de- 
lante-atrâs (Figura 15.4) aplicado a una secuencia de longitud t es 0(S 2 t), ya que cada 
paso requiere multiplicar un vector de .S'-clcmcntos por una matriz S X S. El requerimiento 
de espacio es 0(St), ya que los pasos hacia delante almacenan t vectores de tamano S. 

Ademâs proporciona una descripciôn elegante de los algoritmos de filtrado y sua- 
vizado para MOMs, la formulaciôn matricial révéla posibilidades para mejorar los al¬ 
goritmos. La primera es una variaciôn sencilla en el algoritmo hacia delante-atrâs que 
permite que el suavizado se lleve a cabo en un espacio constante, independientemente 
de la longitud de la secuencia. La idea es que el suavizado para cualquier corte de tiem¬ 
po concreto k requiere la presencia simultânea de tanto los mensajes hacia delante como 
de los de hacia atrâs, f l jt y b t+1 . f , de acuerdo a la Ecuaciôn (15.6). El algoritmo hacia de¬ 
lante-atrâs consigue esto almacenando los fs calculados en el paso hacia delante con el 
fin de que estén disponibles durante el paso hacia atrâs. Otro modo de lograr esto es con 
un paso sencillo que propague tanto f y b en la misma direcciôn. Por ejemplo, el men- 
saje «hacia delante» f puede propagarse hacia atrâs si manipulamos la Ecuaciôn (15.10) 
para que trabaje en la otra direcciôn: 

f 1: » = a'(T T )' 1 07 + 1 1 f 1:m 

El algoritmo de suavizado modificado trabaja ejecutando primero el paso hacia delante 
estândar para calcular f n (olvidando todos los resultados intermedios) y entonces eje- 
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cutando el paso hacia atrâs para tanto b y f juntos, usândolos para calcular la estimaciôn 
suavizada en cada paso. Como solo es necesario una copia de cada mensaje, los reque- 
rimientos de almacenamiento son constantes (es decir, independiente de t, la longitud 
de la secuencia). Hay una restricciôn critica en este algoritmo: requiere que la matriz de 
transiciôn se pueda invertir y que el modelo sensor no tenga ceros, esto es, cada obser¬ 
vaciôn es posible en cada estado. 

Una segunda area en la que la formulaciôn matricial révéla una mejora es en el sua- 
vizado online con un lapso fijo. El hecho de que el suavizado puede hacerse en espacio 
constante sugiere que deberia existir un algoritmo recursivo eficiente para suavizado on¬ 
line (esto es, un algoritmo cuyo tiempo de complejidad es independiente de la longitud 
del lapso). Supongamos que el lapso es d\ esto es, estamos suavizando en el corte de tiem¬ 
po t-d, donde el instante actual es t. Por la Ecuacion (15.6), necesitamos calcular 

^V.t-cPt-d+l-.t 

para el corte t — d. Enfonces, cuando viene una nueva observaciôn, necesitamos calcular 




para el corte t — d + 1. / Como podemos hacer esto incrementalmente? Primero, pode- 
mos calcular f ] . ( _ d+l a partir de f w _ d , utilizando el proceso de filtrado estândar, Ecuacion 
(15.3). 

El câlculo del mensaje hacia atrâs incrementalmente es mas difïcil, ya que no hay 
una relacion sencilla entre el viejo mensaje hacia atrâs b f _ d+1 ., y el nuevo mensaje hacia 
atrâs b t _ d+2 . t+1 . Asi, examinaremos la relacion entre el viejo mensaje hacia atrâs b, _ d+u 
y el mensaje hacia atrâs al principio de la secuencia, b, +lr Para hacer esto, aplicamos la 
Ecuacion (15.11) d veces para obtener 


b/-rf+l:r 





(15.12) 


donde la matriz B,_ d+W es el producto de la secuencia de las matrices T y O. B puede 
pensarse como un «operador de transformaciôn» que transforma un mensaje hacia atrâs 
posterior en uno anterior. Un ecuacion similar se cumple para el nuevo mensaje hacia 
atrâs después de que llegue la siguiente observaciôn: 


bf-d+2:r+l ( H TO,' J b f+2:(+1 B,_ d+2 . f+1 l 

\ i=lt—d+2 / 


(15.13) 


Examinando la expresiôn producto en la Ecuacion (15.12) y (15.13), vemos que tienen 
una relacion sencilla: para obtener el segundo producto, «dividir» el primer producto por 
el primer elemento TO, d+v y multiplicar por el nuevo ültimo elemento TO f+1 . En lengua- 
je matricial, enfonces, hay una relacion sencilla entre las matrices B, la vieja y la nueva: 

B t - d+2:l+1 = O ~} d+ ;B,_ d+ 1:f TO, + , (15.14) 

Esta ecuacion proporciona una actualizaciôn incrémental para la matriz B, la cual a su 
vez (a través de la Ecuacion (15.13)) nos permite calcular el nuevo mensaje hacia atrâs 
b t-d+i-t+v El algoritmo completo, que requiere almacenar y actualizar f y B, se muestra 
en la Figura 15.6. 
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funciôn Suavizado-De-Lapso-Fijo (e,,mom,d) devuelve una distribuciôn sobre X, d . 
entradas: e t , la evidencia actual para el paso de tiempo t 

mom, un modelo oculto de Markov con una matriz de transition T de dimension S X S 
d, la longitud del lapso para el suavizado 
estâticas: f, el tiempo actual, inicialmente 1 

f, una distribution de probabilidad, el mensaje hacia delante P(X,|e w ), inicialmen- 
te Priori[oto»î] 

B, la matriz de transformation hacia atrâs de cl-pasos, inicialmente la matriz iden- 
tidad 

e i-dr lista de evidencias desde t — d hasta t, inicialmente vacîa 
variables locales: O, à , O,, matrices diagonales que contiene la information del modelo sensor 

anadir e t al final de e,_ d . t 
O, <— matriz diagonal conteniendo P(e,|X f ) 
si t > d entonces 
f <— Hacia-Delante (f, e,) 
borrar e t d , del comienzo de e,_ d . t 
O, d <— matriz diagonal conteniendo P(e, d \X t d ) 

B^-O^'/T BTO, 
en otro caso B «— BTO, 
t *— t~\~ 1 

si t> d entonces devolver NoRMALiZAR(f X Bl) en otro caso devolver nulo (nul!) 


Figura 15.6 Un algoritmo para suavizado con un lapso de tiempo fijado de d pasos, implemen- 
tado como un algoritmo online que produce la nueva estimation suavizada dada la observation para 
un nuevo paso de tiempo. 


15.4 Filtros de Kalman 


Imagine que mira un pâjaro pequeno volando a través del follaje de una jungla densa al 
anochecer: vislumbra destellos brèves e intermitentes del movimiento; intenta con di- 
ficultad adivinar donde esta el pâjaro y donde aparecerâ la proxima vez para que no lo 
pierda. O imagine que es un operador de radar en la Segunda Guerra Mundial que mira 
detenidamente en una apenas visible senal luminosa sin mmbo fijo que aparece cada 
10 segundos en la pantalla. O, retrocediendo mas lejos aün, imagine que es Kepler in- 
tentando reconstruir los movimientos de los planetas de un conjunto de observaciones 
angulares altamente inexactas tomadas en intervalos medidos de forma irregular e im- 
precisa. En todos los casos, esta intentando estimar el estado (posicion y velocidad, por 
ejemplo) de un sistema fisico a partir de observaciones ruidosas en el tiempo. El pro- 
blema puede formularse como inferencia en un modelo probabilista temporal, donde el 
modelo de transicion describe la flsica del movimiento y el modelo sensor describe el 
proceso de mediciôn. Esta secciôn examina las representaciones especiales y los algo- 
ritmos de inferencia que se han desarrollado para resolver estos tipos de problemas; el 
filtrado de kalman método que abordaremos se llama filtrado de Kalman, después de su inventor, Rudolf 
E. Kalman. 
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Claramente, necesitaremos sendas variables continuas para especificar los estados del 
sistema. Por ejemplo, el vuelo del pâjaro puede especificarse por la posiciôn {X, F, Z) y la 
velocidad (X, Y, Z) en cada punto en el tiempo. También necesitamos densidades condi- 
cionales adecuadas para representar los modelos transiciôn y sensor; como en el Capltulo 
14, usaremos distribuciones gaussianas lineales. Esto significa que el siguiente estado X, +1 
debe ser una funciôn lineal del estado actual X,, mas algün ruido gaussiano, una condiciôn 
que résulta ser bastante razonable en la prâctica. Considéré, por ejemplo, la coordcnada X 
del pâjaro, ignorando las otras coordenadas por ahora. Sea A el intervalo entre las observacio- 
nes, y supongamos velocidad constante; enfonces la posiciôn actualizada viene dada por 

X t+A = X t + XX 

Si anadimos ruido gaussiano entonces tenemos un modelo de transiciôn gaussiano: 

P(X I+A = x t+A \X, = x t , X t = x t ) = N(x , + XjA, oj(x r+A ) 

La estructura de la red bayesiana para un sistema con posiciôn X, y velocidad se mues- 
tra en la Figura 15.7. Nôtese que esta es una forma muy concreta de modelo gaussiano 
lineal; la forma general se describirâ posteriormente en esta secciôn y abarca una amplia 
sérié de aplicaciones ademâs de los ejemplos de movimiento sencillos del primer pârra- 
fo. El lector puede desear consultar el Apéndice A para algunas propiedades matemâti- 
cas de las distribuciones gaussianas; para nuestros propôsitos inmediatos, el mas importante 
es que una distribuciôn gaussiana multivariante para d variables esta especificada por 
un media fi de d-elcmcntos y la matriz de covarianzas 2 de dimension d X d. 

Actualizaciôn de distribuciones gaussianas 

En el Capltulo 14, nos referimos a una propiedad clave de la familia de distribuciones 
gaussianas lineales: permanecen cerradas bajo las operaciones estândares de redes ba- 
yesianas. Aqul, hacemos esta afirmaciôn en el contexto de filtrado en un modelo pro- 
babilista temporal. Las propiedades necesarias corresponden al câlculo del filtrado en 
dos-pasos de la Ecuaciôn (15.3): 



Figura 15.7 Estructura de red bayesiana para un sistema dinâmico lineal con posiciôn X,, velo¬ 
cidad X ( , y medida de posiciôn Z,. 
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1. Si la distribucion actual P(Xje H ) es gaussiana y el modelo de transiciôn P(X, +1 |x,) 
es gaussiana lineal, entonces la distribucion predictiva de un-paso dada por 



(15.15) 


es también una distribucion gaussiana. 

2 . Si la distribucion predictiva P(X, + 1 |e w ) es gaussiana y el modelo sensor 
P(eJX t+ j) es gaussiana lineal, entonces, después de condicionar a la nueva evi- 
dencia, la distribucion actualizada 



(15.16) 


es también una distribucion gaussiana. 

Asi, el operador Hacia-Delante para el filtrado de Kalman toma un mensaje hacia de- 
lante gaussiano f w , especificada por una media p. t y matriz de covarianzas 2,, y produ¬ 
ce un nuevo mensaje hacia delante gaussiano multivariante fj. (+1 , especificado por una 
media /x (+l y matriz de covarianzas 2 (+l . Asi, si empezamos con una a priori gaussiana 
fj. 0 = P(X 0 ) = N(/jl 0 , 2 0 ), filtrando con un modelo gaussiano lineal produce una distri¬ 
bucion de estados gaussiana para todo los instantes. 

Esto parece ser un resultado bonito y elegante, pero /por qué es tan importante? La 
razon es que, excepta para unos pocos casos especiales taies como este, el filtrado con 
redes continuas e hlbridas (discretas y continuas) généra distribuciones de estado cuya 
representaciôn crece sin limite en el tiempo. Esta afirmacion no es fâcil de probar en ge¬ 
neral, pero el Ejercicio 15.5 muestra qué ocurre para un ejemplo sencillo. 

Un ejemplo unidimensional sencillo 

Hemos dicho que el operador Hacia-Delante para el filtro de Kalman transforma una 
gaussiana en una nueva gaussiana. Esto se traduce en calcular una nueva media y matriz 
de covarianza a partir de las media y matriz de covarianza previas. Deducir la régla de 
actualizacion en el caso general (multivariante) requiere bastante âlgebra lineal, asi que 
nos limitaremos a un caso univariante sencillo por ahora; después daremos los resulta- 
dos para el caso general. Incluso para el caso univariante, los câlculos son un tanto te- 
diosos, pero consideramos que vale la pena verlos porque la utilidad de los filtros de 
Kalman esta mtimamente relacionada a las propiedades de las distribuciones gaussianas. 

El modelo temporal que consideraremos describe un camino aleatorio de una sola 
variable estado continua X t con una observacion ruidosa Z r . Un ejemplo podria ser el in¬ 
dice de «confianza del consumidor», que puede ser modelado como una fluctuacion men- 
sual aleatoriamente distribuida como una gaussiana y medida por una encuesta a 
consumidores aleatorios que también introduce mido de muestreo gaussiano. La distri¬ 
bucion a priori se supone que es una gaussiana con varianza af. 



(Por simplicidad, en esta seccion usaremos el mismo simbolo a para todas las constan¬ 
tes de normalizaciôn.) 
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El modelo de transicion simplemente anade una perturbacion gaussiana de varianza cons¬ 
tante al estado actual: 

_ri G, + i--t,) 2 \ 

P(x t+ ik) = « 2 ' ^ ' 

El modelo sensor entonces asume ruido gaussiano con varianza crf. 

P(z t \x t ) = ae 2 ' ^ ' 


Ahora, dada la a priori P(X 0 ), podemos calcular la distribucion predictiva de un paso uti- 
lizando la Ecuacion (15.15): 


P{x x ) 


P(x\x Q )P(x Q )dx Q = a 


I 00 - 


1/ (x\-x 0 Ÿ 


(*o-Mo ) 2 \ 

2 ' dx 0 


COMPLETAR EL 
CUADRADO 



ri (Tq (-V] — -Vp ) 2 + o ~ 2 ( -Vp — Mo ) 2 
2\ 



Esta intégral parece bastante complicada. La clave para avanzar es notar que el exponente 
es la suma de dos expresiones que son cuadrâticas en x 0 y asi él mismo es cuadrâtico en 
x 0 . Un truco sencillo conocido como completar el cuadrado permite la reescritura de 

cualquier cuadrâtica ax 2 + bx 0 + c como la suma de un término al cuadrado a 

b 2 

y un término residual c — — que es independiente de x 0 . El término residual puede 
sacarse de la intégral, lo que nos da 



P(x j) = ae 





-b 

~2a 


Ahora la intégral es justamente la intégral de una gaussiana en todo su rango, la cual es sim¬ 
plemente 1. Asi, nos quedamos solo con el término residual de la expresion cuadrâtica. 

El segundo paso clave es notar que el término residual tiene que ser cuadrâtico en 
xp, de hecho, después de simplificar, obtenemos 

_ ri (*i~mq) 2 \ 

P( jq) = ac" 2 V W > 


Esto es, la distribucion predictiva de un paso es una gaussiana con la misma media p (l 
y una varianza igual a la suma de la varianza original y la varianza de transicion . Un 
ejercicio momentâneo de intuiciôn révéla que esto es intuitivamente razonable. 

Para completar el paso de actualizaciôn, necesitamos condicionar a la observaciôn 
en el primer paso de tiempo, a saber, z v De la Ecuacion (15.16), esto viene dado por 

ri u.-D 2 ] 1 ( (*1 - r 0 f \ 

P(z^x^) = aP{z*\x x )P(x^) = ae 2 ' ^ ’e 2 ' °'° + t d ' 


Una vez mâs, combinamos los exponentes y completamos el cuadrado (Ejercicio 15.6), 
obteniendo 



il (<H5 + o-pZi + ) 2 \ 

11 

r 1 “-S + ri + ri / | 

(N 

ÎJ 

II 

\ (cri + + °ri/ 


(15.17) 
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Asi, después de un ciclo de actualizaciôn, tenemos una nueva distribuciôn gaussiana para 
la variable estado. 

De la formula gaussiana de la Ecuacion (15.17), vemos que la nueva media y des- 
viaciôn estândar pueden calcularse a partir de la media y desviaciôn estândar viejas como 
sigue: 


/V i = 


CT 


2 

1+1 


{a; + a 2 x )z t+l + trr/x, 
°ï + a] + a 2 
(°f + <r; )a: 
a 2 + a 2 + a 2 


(15.18) 


La Figura 15.8 muestra un ciclo de actualizaciôn para valores particulares de los mode- 
los de transicion y sensor. 

El par precedente de ecuaciones juega exactamente el mismo papel que la ecuacion 
de filtrado general (15.3) o la ecuacion de filtrado de MOM (15.10). Debido a la natu- 
raleza de las distribuciones gaussianas, podemos interpretar el câlculo para la nueva me¬ 
dia /x, +1 como simplemente una media ponderada de la nueva observacion z t+l y la media 
vieja /x ; . Si la observacion es poco fiable, enfonces a 2 es grande y podemos prestar mas 
atenciôn a la media vieja; si la media vieja es poco fiable ( cr 2 es grande) o el proceso es 
altamente impredecible (cr 2 es grande), enfonces prestamos mas atenciôn a la observa- 
ciôn. Segundo, nôtese que la actualizaciôn para la varianza of +1 es iiidependiente de la 
observacion. Podemos asi calcular por adelantado qué secuencia de valores de varian¬ 
za se tendrân. Tercero, la secuencia de valores de varianza converge râpidamente a un 
valor fijo que dépende solo de a 2 y a 2 , consecuentemente se simplifica sustancialmen- 
te los câlculos de la secuencia. ( Véase Ejercicio 15.7.) 
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Figura 15.8 Etapas en el ciclo de actualizaciôn del filtro de Kalman para un camino aleatorio con 

una a priori dada por jul 0 = 0,0 y 

a 0 = 1,0, ruido de transition dado por o x = 2,0, ruido del sensor 

dado por cr. = 1,0, y una primera observacion z, =2,5 (marcado en el eje x). Nôtese como la pre- 

dicciôn Pfq) esta achatada, comparada con P(x 0 ), por el ruido de transicion. Nôtese también que la 

media de la posterior P(x l |z t ) esta ligeramente a la izquierda de la observacion z l porque la media es 

una media ponderada de la prédiction y la observation. 
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El caso general 


La deducciôn anterior ilustra la propiedad clave de las distribuciones gaussianas que hace 
que funcione el filtro de Kalman: el hecho de que el exponente es una forma cuadrâti- 
ca. Esto es verdad no solo para el caso univariante: la distribuciôn gaussiana multiva- 
riante tiene la forma 

N(fi, 2)(x) = ae 

Multiplicando los términos del exponente es claro que el exponente es también una fun- 
ciôn cuadrâtica de las variables aleatorias x t de x. Como en el caso univariante, la ac¬ 
tualizaciôn del filtrado préserva la naturaleza gaussiana de la distribuciôn de estados. 

Primero definimos el modelo temporal general usado con el filtrado de Kalman. Tan- 
to el modelo de transiciôn como el modelo sensor tienen en cuenta una transformaciôn 
lineal con mido gaussiano aditivo. Asi, tenemos 

^Ob+ik) = W(Fx„ 2,)(x f+1 ) 

P(z,|x f ) = N( Hx„ 2 v )(z,), 

donde F y 2 V son matrices que describen el modelo de transiciôn lineal y la covarianza 
del ruido de transiciôn y H y 2. son las matrices correspondantes para el modelo sen¬ 
sor. Ahora las ecuaciones de actualizaciôn para la media y covarianza, en su totalidad, 
horriblemente horripilantes, son 


MATRIZ DE GANANCIA 
DE KALMAN 


M, +1 = F fi + K, +1 (z f+1 - HF/*,) 

2 (+1 = (I - K f+1 )(F2,F T + 2 X ) ^ ; 

donde K, +1 = (F2,F + 2 r )H (H(F2,F + 2 v )H 1 + 2_) _1 se llama matriz de ganan- 
cia de Kalman. Lo créa o no, estas ecuaciones tienen algün sentido intuitivo. Por ejem- 
plo, considéré la actualizaciôn para la estimaciôn del estado de la media fx. El término F \x t 
es el estado pronosticado en t + 1, asi HF fx, es la observaciôn pronosticada. Asf, el tér¬ 
mino z, +1 - HF/x, représenta el error en la observaciôn pronosticada. Esto se multiplica 
por K (+I para corregir el estado pronosticado; asi K, +1 es una medida de como de serio to- 
mar la nueva observaciôn concemiente a la predicciôn. Como en la Ecuaciôn (15.18), tam¬ 
bién tenemos la propiedad de que la actulizaciôn de la varianza es independiente de las 
observaciones. La secuencia de valores para 2, y K, puede asi calcularse offline, y los câl- 
culos sustanciales necesarios durante el proceso online son bastante modestos. 

Para mostrar estas ecuaciones en funcionamiento, las hemos aplicado al problema 
de seguir el movimiento de un objeto en el piano X-Y. Las variables de estado son 
X = ( X , Y, X, Ÿ) r asi F, 2 v , H, y 2, son matrices 4 X 4. La Figura 15.9(a) muestra la 
trayectoria verdadera, una sérié de observaciones ruidosas, y la trayectoria estimada por 
el filtrado de Kalman, junto con las covarianzas indicadas por los contornos de una-des- 
viaciôn-estândar. El proceso de filtrado hace un buen trabajo de rastreo de la pista del 
movimiento real, y, como era esperable, la varianza râpidamente alcanza un punto fijo. 

Podemos también deducir ecuaciones para el suavizado al igual que con el filtrado 
con modelos gaussianos lineales. Los resultados del suavizado se muestran en la Figu¬ 
ra 15.9(b). Nôtese como la varianza en la estimaciôn de la posiciôn se reduce brusca- 
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mente, excepto al final de la trayectoria Q ; por qué?), y que la trayectoria estimada es mu- 
cho mas suave. 


Aplicabilidad del filtrado de Kalman 


FILTRO DE KALMAN 
EXTENDIDO (FKE) 


El filtro de Kalman y sus modifieaciones se utilizan en una amplia sérié de aplicacio- 
nes. La aplicaciôn «clâsica» es en seguimiento por radar de aviones y misiles. Aplica- 
ciones relacionadas incluyen seguimiento acüstico de submarinos y vehiculos terrestres 
y seguimiento visual de vehiculos y gente. En un filon ligeramente mas esotérico, los 
filtros de Kalman se utilizan para reconstruir trayectorias de particulas a partir de foto- 
grafias de câmaras-de-burbujas y flujos oceânicos a partir de mediciones de superficie 
de satélite. El campo de aplicaciôn es mucho mas grande que solo el seguimiento de mo- 
vimiento: cualquier sistema caracterizado por variables de estados continuos y mediciones 
ruidosas lo sera. Taies sistemas incluyen fâbricas de pulpa, plantas quimicas, reactores 
nucleares, ecosistemas de plantaciôn, y economias nacionales. 

El hecho de que el filtrado de Kalman pueda aplicarse a un sistema no significa que 
el resultado sera vâlido o ütil. Las suposiciones que se consideran (modelos de transiciôn 
y sensor son gaussianos lineales) son muy fuertes. El filtro de Kalman extendido (FKE) 
intenta superar la no linealidad en los sistemas a modelar. Un sistema es no lineal si el 
modelo de transiciôn no puede describirse como una multiplieaciôn matricial del vector 
de estados, como en laEcuaciôn(15.19). El FKE trabaja modelando el sistema localmente 
como si fuera lineal en x f en la région x, = fi t , la media de la distribuciôn de estados en 
curso. Esto trabaja bien para suavizado, sistemas con buen-comportamiento y permite al 
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FILTRO DE KALMAN 
DE INTERCAMBIO 


rastreador conservar y actualizar un distribucion de estados gaussiana que es una apro- 
ximacion razonable para la auténtica a posteriori. 

iQué significa para un sistema ser «no-suavizado» o con «pobre comportamiento»? 
Técnicamente, significa que hay una no-linealidad significativa en la respuesta del sis¬ 
tema dentro de la région que esta «cerrada» (de acuerdo a la covarianza 2 r ) para la me¬ 
dia actual p,. Para entender esta idea en términos no técnicos, considéré el ejemplo de 
intentar seguir la pista de un pâjaro que vuela entre la jungla. Parece que el pâjaro va de 
cabeza a alta velocidad y en linea recta al tronco de un ârbol. El filtro de Kalman, ya sea 
el normal o el extendido, puede solo hacer una prediccion gaussiana de la localizacion 
del pâjaro, y la media de esta gaussiana estarâ centrada en el tronco, como se muestra 
en la Figura 15.10(a). Un modelo razonable para el pâjaro, por otro lado, predeciria una 
accion evasiva a un lado o a otro, como se muestra en la Figura 15.10(b). Tal modelo es 
altamente no lineal, ya que la decision del pâjaro varia bruscamente dependiendo de su 
localizacion exacta relativa al tronco. 

Para manejar ejemplos como este, claramente necesitamos un lenguaje mâs expre- 
sivo para la representacion del comportamiento del sistema que va a ser modelado. En 
la comunidad de la teoria de control, en cuyos problemas taies como maniobras evasi- 
vas de aviones se plantean los mismos tipos de dificultades, la soluciôn estândar es el 
filtro de Kalman de intercambio. En este enfoque, los filtros de Kalman mültiples se 
ejecutan en paralelo, cada uno utilizando un modelo diferente del sistema, por ejemplo, 
uno para el vuelo en linea recta, uno para girar a la izquierda deprisa, y uno para girar 
a la derecha deprisa. Se utiliza una suma ponderada de predicciones, donde el peso dé¬ 
pende de como de bien se ajusta cada filtro a los datos actuales. Veremos en la secciôn 
siguiente que es simplemente un caso especial del modelo general de redes bayesianas 
dinâmicas, obtenido mediante la suma de un variable de estado discreta «de maniobras» 
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para la red que se muestra en la Figura 15.7. Los filtros de Kalman de intercambio se 
abordan mas en el Ejercicio 15.5. 


15.5 Redes bayesianas dinâmicas 


RED BAYESIANA 
DINÂMICA 



Una red bayesiana dinâmica, o RBD, es una red bayesiana que représenta un modelo 
probabilista temporal del tipo descrito en el Apartado 15.1. Ya hemos visto ejemplos de 
RBDs: la red del paraguas de la Figura 15.2 y la red del filtro de Kalman de la Figura 
15.7. En general, cada corte de una RBD puede tener cualquier nümero de variables de 
estado X f y variables de evidencia E r Por sencillez, supondremos que las variables y sus 
enlaces estân duplicadas exactamente de corte en corte y que la RBD représenta un pro- 
ceso de Markov de primer orden, asf que cada variable puede tener padres solo en su pro- 
pio corte o el corte inmediatamente anterior. 

Deberia estar claro que cada modelo oculto de Markov puede representarse como una 
RBD con una sola variable de estado y una sola variable de evidencia. Es también el caso 
de cada RBD de variables discretas que puede representarse como un MOM; como se ex- 
plicô en el Apartado 15.3, podemos combinar todas las variables de estado en la RBD en 
una sola variable de estado cuyos valores son todas las posibles tuplas de valores de las 
variables de estado individuales. Ahora, si cada MOM es una RBD y cada RBD puede 
traducirse en un MOM, / cuâl es la diferencia? La diferencia es que, en la descomposi- 
ciôn del estado de un sistema complejo en sus variables constituyentes, la RBD es capaz 
de aprovecharse de la poca densidad del modelo probabilista temporal. Suponga, por 
ejemplo, que una RBD tiene 20 variables de estado Booleanas, cada una de las cuales tie- 
ne très padres en el corte anterior. Entonces el modelo de transicion de la RBD tiene 20 
X 2 3 = 160 probabilidades, mientras que el correspondiente MOM tiene 2 20 estados y asf 
2 40 probabilidades, o mas o menos un trillôn, en la matriz de transicion. Esto es malo por 
al menos très razones: primero, el MOM en sf mismo requiere mucho mas espacio; se- 
gundo, la enorme matriz de transicion hace la inferencia de MOM mucho mas costosa; 
y tercero, el problema del aprendizaje con tan enorme nümero de paramétras hace que el 
modelo MOM puro sea inadecuado para grandes problemas. La relacion entre las RBDs 
y los MOMs es mas o menos anâloga a la relacion entre las redes bayesianas ordinarias 
y distribuciones conjuntas complétas expresadas como tablas. 

Ya hemos explicado que cada modelo del filtro de Kalman puede representarse en 
una RBD con variables continuas y distribuciones condicionales gaussianas lineales (Fi¬ 
gura 15.7). Deberia estar claro de la discusion del final de la seccion anterior que no toda 
RBD puede representarse por un modelo de filtro de Kalman. En un filtro de Kalman, 
la distribucion del estado en curso es siempre una sola distribucion gaussiana multiva- 
riante, esto es, un solo «bulto» en un lugar concreto. Las RBDs, por otro lado, pueden 
modelar distribuciones arbitrarias. Para muchas aplicaciones del mundo real, esta flexi- 
bilidad es esencial. Considéré, por ejemplo, el sitio actual de mis llaves. Deberian estar 
en mi bolsillo, en la mesita de noche, o en el mostrador de la cocina, o colgadas en la 
puerta principal. Un solo bulto gaussiano que incluya todos estos lugares deberia tener 
que asignar probabilidad significativa a las llaves que estân en medio del aire del vestf- 
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bulo de entrada. Aspectos del mundo real taies como agentes intencionales, obstâculos, 
y bolsillos introducen «no-linealidad» que requiere combinaciones de variables décré¬ 
tas y continuas para obtener modelos razonables. 

Construcciôn de RBDs 

Para construir una RBD, uno debe especificar très tipos de informaciôn: la distribucion 
a priori sobe las variables de estado, P(X 0 ); el modelo de transicion P(A f+l |3Q; y el mo- 
delo sensor P(/?JX ; ). Para especificar los modelos transicion y sensor, uno debe también 
especificar la topologia de las conexiones entre cortes sucesivos y entre las variables de 
estado y de evidencia. Ya que se supone que los modelos de transicion y sensor son es- 
tacionarios (el mismo para todo t) es sencillamente mas conveniente especificarlos para 
el primer corte. Por ejemplo, la especificacion compléta de la RBD para el mundo del 
paraguas viene dado por la red de très nodos que se muestra en la Figura 15. l(a). A par¬ 
tir de esta especificacion, la RBD compléta (semi-infinita) puede constmirse, cuando sea 
necesario, copiando el primer corte. 

Ahora consideremos un ejemplo mas interesante: la monitorizacion de un robot con 
baterfas moviéndose en el piano X-Y, como se introdujo en el Apartado 15.1. Primero, 
necesitamos variables de estado, que incluirân tanto X, = ( X t , Y ,) para la posicion y 
X f = (X r Ÿ t ) para la velocidad. Supondremos algün método de medicion de la posicion, 
quizâs una câmara fija o un GPS (Global Positioning System) produciendo medidas Z,. 
La posicion en el siguiente paso de tiempo dépende de la posicion actual y la velocidad, 
como en el modelo del filtro de Kalman estândar. La velocidad en el siguiente paso dé¬ 
pende de la velocidad actual y el estado de la bateria. Anadimos Bateria t para representar 
el nivel actual de la carga de la bateria, que tiene como padres el nivel de bateria previo 
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MODELO DEERROR 
GAUSSIANO 


FALLO TRANSITORIO 


y la velocidad previa, y anadimos BMedidor t , que mide el nivel de carga de la bateria. 
Esto nos da el modelo bâsico que se muestra en la Figura 15.11 (b). 

Vale la pena mirar con mas profundidad en la naturaleza del modelo sensor para BMe- 
didor t . Supongamos, por simplicidad, que tanto Bateria , y BMedidor t pueden tomar los 
valores discretos desde 0 hasta 5 (o mejor como el medidor de bateria en un computa- 
dor portâtil tipico). Si la medicion se hace siempre con précision, enfonces la TPC 
P(BMedidor t \Bateria) deberia tener probabilidades de 1,0 «a lo largo de la diagonal» y 
probabilidades de 0,0 en los demâs casos. En realidad, el ruido siempre entra en las me- 
diciones. Para mediciones continuas, una distribucion gaussiana con una varianza pe- 
quena puede incluso utilizarse 4 . Para nuestras variables discretas, podemos aproximar 
una gaussiana utilizando una distribucion en la que la probabilidad de error se despren- 
da de modo apropiado, a fin de que la probabilidad de un error grande sea muy peque- 
na. Usaremos el término modelo de error gaussiano para abordar tanto las versiones 
continuas como las discretas. 

Cualquiera con experiencia prâctica de robôtica, control de procesos computeriza- 
dos, u otras formas de percepcion automâtica testificarâ sin esfuerzo el hecho de que pe- 
quenas cantidades de medicion de ruido son con frecuencia el menor de los problemas. 
Los sensores renies fallan. Cuando un sensor falla, necesariamente no manda una senal 
diciendo, «Ah, a proposito, los datos que le envio son una sarta de disparates». En vez 
de eso, simplemente envia los disparates. El tipo mas sencillo de fallo se llama fallo tran- 
sitorio, donde el sensor ocasionalmente décidé enviar algo sin sentido. Por ejemplo, el 
sensor del nivel de bateria puede tener la costumbre de enviar un cero cuando alguien 
tropieza con el robot, incluso si la bateria esta totalmente cargada. 

Veamos qué sucede cuando tiene lugar un fallo transitorio con un modelo de error 
gaussiano que no se adecua a taies fallos. Suponga, por ejemplo, que el robot esta tran- 
quilamente posado y observa 20 lecturas de bateria consecutivas de valor 5. Entonces el 
medidor de bateria tiene una parada temporal y la siguiente lectura es BMedidor 21 = 0. 
/ ; Qué nos harâ creer el modelo de error gaussiano simple sobre BMedidor..,‘1 Atendien- 
do a la régla de Bayes, la respuesta dépende tanto del modelo sensor P (BMedi¬ 
dor 2X = 0\Bateria 2l ) como del modelo de prediccion P( Bateria 2 , \BMedidor l 2() ). Si la 
probabilidad de un error grande del sensor es significativamente menos creible que la 
probabilidad de una transicion a Bateria-, x = 0, incluso si éste es muy poco creible, en¬ 
tonces la distribucion a posteriori asignarâ una alta probabilidad a que la bateria esta va- 
cia. Una segunda lectura de cero en t = 22 tomarâ esta conclusion casi con certidumbre. 
Si entonces el fallo transitorio desaparece y la lectura devuelve 5 de t = 23 hacia delante, 
la estimaciôn para el nivel de bateria râpidamente vuelve a 5, como por arte de magia. 
Esta transicion de sucesos se ilustra en la curva superior de la Figura 15.12(a), que mues¬ 
tra el valor esperado de Bateria t en el tiempo utilizando un modelo de error gaussiano 
discreto. 

A pesar de la recuperacion, hay un instante (t = 22) en el que el robot esta conven- 
cido de que su bateria esta vacia; es de suponer que, entonces, mandaria una senal de 


4 Estrictamente hablando, una distribucion gaussiana es problemâtica porque asigna probabilidades no nu- 
las a grandes niveles de carga negativa. La distribucion beta es a veces una élection mejor para una varia¬ 
ble con rango restringido. 
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Figura 15.12 (a) Curva superior: trayectoria del valor esperado de Bateria, para una secuencia 

de observaciones con todos los valores a 5 excepto para ; = 21 y t = 22 que tienen valor 0, usan- 
do un modelo de error gaussiano simple. Curva inferior: la trayectoria cuando las observaciones 
permanecen a valor 0 desde t = 21 en adelante. (b) El mismo expérimenta se realiza con el mode¬ 
lo de fallo transitorio. Nôtese que el fallo transitorio se procesa bien, pero el fallo persistente tiene 
como resultado un pesimismo extremo. 



llamada de ayuda y se apagaria. Lamentablemente, su modelo sensor demasiado sim- 
plista le ha llevado por mal camino. /Como puede arreglarse esto? Considéré un ejem- 
plo familiar de conducciôn: en una curva cerrada o en una cuesta pronunciada, la luz de 
advertencia de «tanque de gasolina vacio» se enciende a veces. En vez de buscar un te- 
léfono de emergencia, uno simplemente recuerda que el indicador de gasolina, a veces, 
da un error muy grande cuando la gasolina se esta agitando en el tanque. La moraleja 
de esta historia es la siguiente: Lo indicado para que el sistema manipule fados del sen¬ 
sor correctamente es que el modelo sensor debe incluir la posibilidad de fallo. 

El tipo mas sencillo de modelo de fallos para un sensor permite una probabilidad po¬ 
sitiva de que el sensor devolverâ indiscutiblemente algün valor incorrecto, sin tener en 
cuenta el estado real del mundo. Por ejemplo, si el medidor de bateria devuelve 0, de- 
bemos decir que: 

P{BMedidor t = 0\Bateria, = 5) = 0,03, 


MODELO DE FALLO 
TRANSITORIO 


lo que se supone mucho mas grande que la probabilidad asignada por el modelo de error 
gaussiano simple. Llamamos a esto modelo de fallo transitorio. /Como ayuda cuando 
no enfrentamos a una lectura de 0? Supuesto que la probabilidad de predicciôn de una 
bateria vacia, de acuerdo a las lecturas realizadas hasta el momento, es mucho menor 
que 0,03, la mejor explicacion de la obscrvac ion B Medidor 2 , = 0 es que el sensor ha fa- 
llado temporalmente. Intuitivamente, podemos pensar en la creencia sobre el nivel de la 
bateria como si tuviera una cierta inercia que ayuda a sobreponerse de las irregularida- 
des en la lectura del medidor. La curva superior de la Figura 15.12(b) muestra que el mo¬ 
delo de fallo transitorio puede manejar fallos transitorios sin un cambio desastroso en 
las creencias. 
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MODELO DE FALLOS 
PERSISTENTES 


ARCO PERSISTENTE 


Y después de las irregularidades temporales ^qué hacer si un fallo del sensor per¬ 
siste? Lamentablemente, los fallos de este tipo son igualmente comunes. Si el sensor de- 
vuelve 20 lecturas de 5 seguido de 20 lecturas de 0, enfonces el modelo sensor de fallo 
transitorio descrito en el pârrafo anterior redundarâ en el robot gradualmente llegando 
a creer que su bateria esta vacfa cuando de hecho puede ser que el medidor esté fallan- 
do. La curva inferior de la Figura 15.12(b) muestra la «trayectoria» de la creencia para 
este caso. Para t = 25 (cinco lecturas de 0) el robot esta convencido de que su bateria 
esta vacfa. Obviamente, prefeririamos que el robot créa que su medidor de bateria esta 
roto (si es que éste es el suceso mas crefble). 

De modo habituai, para manejar fallos persistentes, necesitaremos un modelo de fa¬ 
llos persistentes que describa como el sensor se comporta bajo condiciones normales 
y después de fallos. Para hacer esto, necesitamos aumentar el estado oculto del sistema 
con una variable adicional, digamos BMRoto, que describe el estatus del medidor de la 
bateria. La persistencia de fallos debe modelarse por un arco enlazando BMRoto 0 con 
BMRoto r Este arco perslstente tiene una TPC que da una pequena probabilidad de fa¬ 
llo en cualquier paso de tiempo dado, digamos 0,001, pero especifica que el sensor se 
queda roto una vez que él se rompe. Cuando el sensor esta funcionando perfectamente, 
el modelo sensor para BMedidor es idéntico al modelo de fallo transitorio; cuando el sen¬ 
sor esta roto, el modelo dice que BMedidor es siempre 0, independientemente de la car- 
ga existente en la bateria. 

El modelo de fallos persistentes para el sensor de la bateria se muestra en la Figura 
15.13(a). Su ejecucion para las dos secuencias de datos (irregularidades temporales y fa¬ 
llos persistentes) se muestra en la Figura 15.13(b). Hay que observar varias cosas en es¬ 
tas curvas. Primero, en el caso de irregularidad temporal, la probabilidad de que el 
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Figura 15.13 (a) Un fragmento de RBD mostrando la variable del estatus del sensor necesaria 

para el modelado del fallo persistente del sensor de la bateria. (b) Curvas superiores trayectorias 
del valor esperado de Bateria, para las secuencias de observaciones «fallo transitorio» y «fallo per¬ 
manente». Curvas inferiores trayectorias probabilistas para BMRoto , dadas las dos secuencias de 
observaciones. 
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sensor esté roto crece significativamente después de la segunda lectura de 0, pero in- 
mediatamente se queda en 0 una vez que se observa un 5. Segundo, en el caso de fallos 
persistentes, la probabilidad de que el sensor esté roto crece râpidamente hasta casi 1 y 
se queda ahi. Finalmente, una vez que se sabe que el sensor esta roto, el robot puede solo 
suponer que su baterfa se descarga a un ritmo «normal», como se muestra por el nivel 
gradualmente decreciente de E(Bateria\ 

Hasta ahora, simplemente hemos aranado la superficie del problema de la repre- 
sentaciôn de procesos complejos. La diversidad de modelos de transiciôn es enorme, 
abarcando tôpicos tan dispersos como modelado del sistema endocrino humano y el 
modelado de conducciôn de mültiples vehiculos en una autovia. El modelado del sen¬ 
sor es también un amplio subcampo en si mismo, pero incluso fenômenos sutiles, ta¬ 
ies como la tendencia del sensor, descalibrados sübitos, y los efectos de condiciones 
exôgenas (taies como el tiempo climatolôgico) que afectan a las lecturas del sensor, 
pueden manipularse mediante representaciones explicitas con redes bayesianas dinâ- 
micas. 


Inferencia exacta en RBDs 

Esbozadas algunas ideas sobre la representaciôn de procesos complejos en RBDs, vol- 
vemos ahora al problema de la inferencia. De alguna forma este problema ya se ha re- 
suelto: las redes bayesianas dinâmicas son redes bayesianas, y ya tenemos algoritmos 
de inferencia en redes bayesianas. Dada una secuencia de observaciones, uno puede cons- 
truir la representaciôn de la red bayesiana compléta duplicando cortes hasta que la red 
sea lo suficientemente grande como para adecuarse a las observaciones, como se mues- 
desenrollado tm en la Figura 15.14. Esta técnica se conoce como desenrollado. (Técnicamente, la RBD 

es équivalente a una red semi-infinita obtenida por desenrollado continuo a lo largo del 
tiempo. Los cortes anadidos mas alla de la ültima observaciôn no tienen efecto en las 
inferencias dentro del perfodo de observaciones y pueden suprimirse.) Una vez que la 
RBD esta desenrollada, uno puede usar cualquiera de los algoritmos de inferencia (eli- 
minaciôn de variables, métodos de ârboles de uniones, etc.) descritos en el Capitulo 14. 
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Figura 15.14 Desenrollando una red bayesiana dinâmica: los cortes son duplicados hasta tener 
en cuenta la secuencia de observaciones (nodos sombreados). Los cortes posteriores no tienen efec¬ 
to en las inferencias realizadas en el perfodo de observaciones. 
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Desafortunadamente, una utilizaciôn simplona del desenrollado no séria especial- 
mente eficiente. Si queremos realizar filtrado o suavizado con una larga secuencia de ob- 
servaciones e l7 , la red desenrollada requeriria espacio O(t) y de este modo creceria sin 
limites confonne se anadieran mas observaciones. Mas aün, si cada vez que se anade una 
observaciôn simplemente ejecutamos de nuevo el algoritmo de inferencia, el tiempo de 
inferencia por actualizacion también aumentarâ segün O(t). 

Mirando atrâs en el Apartado 15.2, vemos que el tiempo y espacio constante por ac¬ 
tualizacion de filtrado puede alcanzarse si los câlculos pueden hacerse de forma recur- 
siva. Esencialmente, la actualizacion de filtrado en la Ecuacion (15.3) funciona sumando 
las variables de estado del paso de tiempo previo para obtener la distribucion del nuevo 
paso de tiempo. La sumatoria de variables es exactamente lo que hace el algoritmo de 
eliminaciôn de variables (Figura 14.10), y résulta que ejecutando la eliminaciôn de va¬ 
riables considerando las variables en su orden temporal, se imita exactamente la opera- 
ciôn de la actualizacion de filtrado recursivo de la Ecuacion (15.3). El algoritmo 
modificado guarda como mucho dos cortes en memoria en cada instante: empezando con 
el corte 0, anadimos el corte 1, enfonces sumamos en el corte 0, después anadimos el 
corte 2, enfonces sumamos en el corte 1, y asi sucesivamente. De este modo, podemos 
conseguir espacio y tiempo constante por actualizacion de filtrado. (El mismo desarro- 
llo puede lograrse haciendo las modificaciones adecuadas para el algoritmo de ârboles 
de uniones.) El Ejercicio 15.10 le pide que verifique este hecho para la red del paraguas. 

Y después de las buenas noticias; ahora las malas noticias: résulta que la «constan¬ 
te» de la complejidad en tiempo y espacio por-actualizaciôn es, en casi todos los casos, 
exponencial en el nümero de variables de estado. Lo que ocurre es que, como se com¬ 
porta la eliminaciôn de variables, los factores crecen para incluir todas las variables de 
estado (o, mas concretamente, todas aquellas variables de estado que tienen padres en 
el corte de tiempo anterior). El tamano del mâximo factor es ()(d" +l ) y el coste de la ac¬ 
tualizacion es 0(d n+2 ). 

Por supuesto, esto es mucho menor que el coste de la actualizacion de los MOM, 
que es 0(d 2n ), pero es todavia impracticable para numéros grandes de variables. Este he¬ 
cho desalentador es un poco duro de aceptar. Lo que significa es que aun cuando po- 
damos usar RBDs para représentai• procesos temporales muy complejos con muchas 
variables poco conectadas, no podemos razonar eficientemente y exactamente en esos 
procesos. El modelo de la RBD en si, que représenta la distribucion conjunta a priori 
sobre todas las variables, se divide en factores segün las TPCs que la constituyen, pero 
la distribucion conjunta a posteriori condicionada a una secuencia de observaciones (eso 
es, el mensaje hacia delante) generalmente no es divisible en factores. Hasta el momento, 
nadie ha encontrado un modo alternativo para este problema, a pesar del hecho de que 
muchas areas importante de ciencias e ingenierfas podrian beneficiarse enormemente de 
su soluciôn. Asi, debemos recurrir a métodos aproximados. 

Inferencia aproximada en RBDs 

En el Capitulo 14 se describieron dos algoritmos aproximados: ponderaciôn de la vero- 
similitud (Figura 14.14) y Monte Carlo para cadenas de Markov (MCCM, Figura 14.15). 
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De los dos, el primero es mas fâcil de adaptar al contexto de RBDs. Veremos, sin em¬ 
bargo, que se requieren distintas reformas sobre el algoritmo estândar de la ponderaciôn 
de la verosimilitud antes de que se muestre un método prâctico. 

Recuerde que la ponderaciôn de la verosimilitud trabaja muestreando los nodos de 
no-evidencia de la red en orden topolôgico, ponderando cada muestra por la verosimi¬ 
litud de acuerdo con las variables de evidencia observadas. Como con los algoritmos exac¬ 
tes, podriamos aplicar la ponderaciôn de la verosimilitud directamente a una RBD 
desenrollada, pero esto adoleceria de los mismos problemas en términos de requeri- 
mientos crecientes en tiempo y espacio por actualizaciôn conforme la secuencia de ob- 
servaciones crece. El problema es que el algoritmo estândar pasa cada muestra a su vez, 
por todos los caminos a través de la red. El algoritmo modificado se adapta al patron ge¬ 
neral de los algoritmos de filtrado, con el conjunto de N muestras segün el mensaje ha- 
cia delante. La primera innovaciôn clave, entonces, es usar las muestras en si como una 
représentation aproximada de la distribuciôn de estados en curso. Esto responde el re- 
querimiento de un tiempo «constante» por actualizaciôn, aunque la constante dépende 
del nümero de muestras requeridas para asegurar una aproximaciôn razonable a la dis¬ 
tribuciôn posterior auténtica. Hay también necesidad de desenrollar la RBD, ya que ne- 
cesitamos tener en memoria solo el corte en curso y el siguiente corte. 

En nuestra discusiôn sobre la ponderaciôn de la verosimilitud del Capitulo 14, apun- 
tamos a que la précision del algoritmo se resiente si las variables de evidencia estân «mas 
abajo» que las variables que se estân muestreando, porque en este caso las muestras se 
generan sin ninguna influencia de la evidencia. Mirando la estructura tipica de una RBD 
(digamos, la RBD del paraguas de la Figura 15.14) vemos que en efecto las variables 
de estado anteriores en el tiempo serân muestreadas sin beneficiarse de la evidencia pos¬ 
terior en el tiempo. De hecho, mirando mâs cuidadosamente, vemos que ; ninguna de las 
variables de estado tiene ninguna de las variables de evidencia entre sus ancestros! Asf, 
aunque el peso de cada muestra dependerâ de la evidencia, el conjunto existente de mues¬ 
tras generadas serâ completamente independiente de la evidencia. Por ejemplo, incluso 
si el jefe trae el paraguas cada dia, el proceso de muestreo podria aun as! alucinar con 
un sinfin de dias de sol. Lo que significa en la prâctica es que la fracciôn de muestras 
que permanecen razonablemente cercanas a la sucesiôn existente de sucesos desciende 
exponencialmente con t, la longitud de la secuencia de observaciones; en otras palabras, 
para mantener un nivel de précision dado, necesitamos aumentar el nümero de muestras 
exponencialmente con t. Dado que el algoritmo de filtrado que funciona en tiempo real 
solo usa un nümero fijo de muestras, lo que ocurre en la prâctica es que el error estalla 
después de un nümero pequeno de pasos de actualizaciôn. 

Claramente, necesitamos una soluciôn mejor. La segunda innovaciôn clave es con¬ 
centrai■ el conjunto de muestras en regiones de alta-probabilidad en el espacio de esta¬ 
dos. Esto puede hacerse tirando las muestras que tienen muy poco peso, de acuerdo a 
las observaciones, mientras que multiplicamos aquellas que tiene un peso alto. De ese 
modo, la poblaciôn de muestras permanecerâ razonablemente cercana a la realidad. Si 
pensamos en las muestras como un medio para el modelado de la distribuciôn posterior, 
entonces tiene sentido usar mâs muestras en regiones del espacio de estado donde la pos¬ 
terior es alta. 
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FILTRADO DE 
PARTiCULAS 


Una familia de algoritmos llamada filtrado de particulas esta disenada para hacer 
justo eso. El filtrado de particulas funciona como sigue: primero, se créa una poblacion 
de N muestras muestreando a partir de la distribucion a priori en el instante 0, P(X 0 ). 
Enfonces el ciclo de actualizacion se repite en cada paso de tiempo: 

• Cada muestra se propaga hacia delante muestreando el valor del estado siguiente 
x f+1 dado el valor actual x f para la muestra, y utilizando el modelo de transicion 
P(X, +1 |x,). 

• Cada muestra se pondéra por la verosimilitud que asigna la nueva evidencia, 

P(e,+i|x,+i). 

• La poblacion es remuestreada para generar una nueva poblacion de N muestras. 
Cada nueva muestra se selecciona de la poblacion actual; la probabilidad de que 
una muestra concreta sea seleccionada es proporcional a su peso. Las muestras nue- 
vas son no-ponderadas. 

El algoritmo se muestra con detalle en la Figura 15.15, y su funcionamiento para la RBD 
del paraguas se ilustra en la Figura 15.16. 

Podemos demostrar que este algoritmo es consistente (da las probabilidades correctas 
cuando N tiende al infinito) considerando qué ocurre durante un ciclo de actualizacion. 
Supondremos que la poblacion de la muestra empieza con una representaciôn correcta 
del mensaje hacia delante f w en el instante t. Escribiendo lV(xJe lt ) como el nümero de 
muestras empleadas en el estado x, después de que las observaciones e ]7 se hayan pro- 
cesado, tenemos que 

/V(xJeJ//V = P(xje 1:f ) (15.21) 

para N grande. Ahora propagamos cada muestra hacia delante muestreando las variables 
de estado en t +1, dados los valores de la muestra en t. El nümero de muestras que al- 


funciôn Filtrado-De-Particulas (e, N, rbd) devuelve un conjunto de muestras para el 
siguiente paso de tiempo. 

entradas: e, la nueva evidencia entrante 

N, el nümero de muestras que van a mantenerse 

rbd, una RBD con priori P(X 0 ), modelo de transicion P(X,|X 0 ). y modelo sensor 

PlEjX,) 

estâticas: S, un vector de muestras de tamano N, inicialmente generado a partir de P(X 0 ) 
variables locales: W, un vector de pesos de tamano N 

desde i = 1 hasta N hacer 

,S[/] <— muestrear a partir de P(Xj|X 0 =S[/]) 

WPlx-PCelX^SH) 

S <— Muestra-Ponderada-Con-Reemplazamiento (N, S, W) 

devolver S 


Figura 15.15 El algoritmo de filtrado de particulas implementado como una operaciôn de ac¬ 
tualizacion recursiva con estados (el conjunto de muestras). Cada uno de los pasos de muestreo in- 
volucra el muestreo de las variables del corte pertinente en orden topolôgico, en gran medida como 
en Muestreo-Por-Priori. La operaciôn Muestra-Ponderada-Con-Reemplazamiento puede im- 
plementarse para ejecutarse en un tiempo esperado de 0(N). 
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canzan el estado x r+1 desde el estado x,es la probabilidad de transiciôn multiplicada por 
la poblaciôn de x t ; asi, el nümero total de muestras que alcanzan x (+1 es 

iV(x f+ 1 |e 1: ,) = 2 P(x, + 1 |x f )A(xJe 1: ,) 

Ahora pesamos cada muestra por su verosimilitud para la evidencia en t + 1. Una mues- 
tra en el estado x f+1 recibe peso P(e f+1 |x, +1 ). El peso total de las muestras en x f+1 después 
de observar e, +1 es asi 

^(x r+1 |e 1:t+1 ) = P(e t+1 \x t+l )N(x t+ Je 1:( ) 

Ahora para el paso de remuestreo. Ya que cada muestra esta copiada con probabilidad 
proporcional a su peso, el nümero de muestras en el estado x (+1 después del remuestreo 
es proporcional al peso total en x f+1 antes del remuestreo: 

N(x t+1 \e 1:t+l )/N = oW(x (+1 |e 1:t+1 ) 

= aE(e, +1 |x f+1 )A(x, +1 |e 1:f ) 

= ai > (e, + 1 |x f+1 ) 2 E(x, + ||x ( )/V(xJe l: ,) 

x r 

= aNP(e t+l |x, +1 ) 2 / , (x f+1 |x ( )P(xJe I:( ) (por 15.21) 

X, 

= a'P(e t+l |x f+1 ) 2 E(x, + ||x,)E(xJe 1:( ) 

X, 

= / > (x (+1 |e I:t+1 ) (por 15.3) 

Asi la poblaciôn de la muestra después de un ciclo de actualizaciôn représenta correc- 
tamente el mensaje hacia delante en el instante t + 1. 

Asi, el filtrado de particulas es consistente, pero /es eficientel En la prâctica pare- 
ce que la respuesta es si: el filtrado de particulas parece asegurar una buena aproxima- 
ciôn a la auténtica a posteriori utilizando un nümero constante de muestras. No hay, hasta 
el momento, garantias teôricas; el filtrado de particulas es en la actualidad un area de 
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estudio intensivo. Se han propuesto muchas variaciones y mejoras, y el conjunto de apli- 
caciones esta creciendo râpidamente. Ya que es un algoritmo de muestreo, el filtrado de 
particulas puede utilizarse fâcilmente con RBD hfbridas y continuas, permitiéndole ser 
aplicado en areas como seguimiento de patrones de movimiento complejo en video (Isard 
y Blake, 1996) y predicciôn en el mercado de acciones (de Freitas et al., 2000). 


15.6 Reconocimiento del habla 


REC0N0CIMIENT0 
DEL HABLA 


M0DEL0 ACÜSTICO 

H0MÔF0NAS 


En esta secciôn veremos una de las mas importantes aplicaciones de los modelos pro- 
babilistas temporales: reconocimiento del habla. La tarea es identificar una secuencia 
de palabras pronunciadas por un orador, dada la senal acüstica. El habla es la modali- 
dad dominante para la comunicaciôn entre los humanos, y el reconocimiento del habla 
por mâquinas de una forma fiable séria inmensamente ütil. Todavfa mas ütil séria el en- 
tendimiento del habla (la identifieaciôn del significado de la expresiôn). Para esto, de- 
bemos esperar hasta el Capitulo 22. 

El habla proporciona nuestro primer contacta con el mundo al natural, sin depurar, 
de datos de un sensor real. Estas datas son ruidosos, muy literalmente: pueden ser rui- 
do de fondo as! como resultados artificiales introducidos por el proceso de digitaliza- 
ciôn; hay variaciôn en el modo en que las palabras se pronuncian, incluso por el mismo 
orador; diferentes palabras pueden sonar lo mismo; y as! sucesivamente. Por estas ra- 
zones, el reconocimiento del habla se ve como un problema de inferencia probabilista. 

En un nivel mas general, podemos définir el problema de inferencia probabilista como 
sigue: sea Palabras una variable aleatoria con valores en todas las posibles secuencias 
de palabras que pueden ser pronunciadas, y sea senal la secuencia de la senal acüstica 
observada. Entonces la interpretaciôn mas crefble de la expresiôn es el valor de Pala¬ 
bras que maximiza P(palabras\senal). Como es a menudo el caso, la aplicaciôn de la 
régla de Bayes es ütil: 

P{palabras\senal) = aP{senal\palabras)P(palabra ) 

P{sehal\palabras) es el modelo acûstico. Describe los sonidos de las palabras 5 , que «cei- 
ling» comienza con una «c» suave y suena lo mismo que «sealing» 6 . (Las palabras que 
suenan igual se llaman homôfonas.) P {palabras ) se conoce como modelo del lengua- 
je. Especifica la probabilidad a priori de cada de cada expresiôn, por ejemplo que «high 
ceiling» es mucho mas probable que la secuencia de palabras «high sealing» 7 . 

Los modelos del lenguaje utilizados en los sistemas de reconocimiento del habla son 
usualmente muy sencillos. El modelo bigram que describimos posteriormente en esta sec¬ 
ciôn proporciona la probabilidad de que cada palabra siga a cada una de las otras pala- 


5 En esla secciôn se recurren a muchos ejemplos de la lengua inglesa. Con objeto de respetar al mâximo el 
Lrabajo original de los autores no se han traducido las palabras que se utilizan como ejemplo, si bien se in- 
dicarâ entre corchetes su significado con la notaciôn [es=] a pie de pagina y siempre y cuando no se altéré 
en exceso el documento original. 

6 «ceiling» [es = techo], «sealing» [es = impermeabilizaciôn\ 

7 «high ceiling» [es = techo elevado], «high sealing» [es = fuerte impermeabilizaciôn\ 
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F0N0L0GÎA 

FONEMAS 


PRONUNCIACIÔN 


bras. El modelo acüstico es mucho mas complejo. Es un descubrimiento importante del 
campo de la fonologi'a (el estudio de como suena el lenguaje), a saber, que todos los len- 
guajes humanos usan un repertorio limitado de entre 40 y 50 sonidos, llamados fonemas. 
Hablando a grandes rasgos, un fonema es el sonido que corresponde a una sola vocal o 
consonante, pero hay algunas complicaciones: las combinaciones de letras, taies como 
«th» y «ng» producen fonemas simples, y algunas letras producen fonemas diferentes en 
contextos diferentes (por ejemplo, la «a» en rat y rate 8 ). En la Figura 15.17 se listan los 
fonemas usados en inglés con un ejemplo de cada uno. Un fonema es la unidad mas pe- 
quena de sonido que tiene un signifie ado distinto para el orador de un lenguaje particu- 
lar. Por ejemplo, en inglés el fonema «t» en «stick» es el mismo fonema que el fonema 
«t» de «tick» 9 , pero en tailandés se distinguen como dos fonemas separados. 

La existencia de fonemas hace posible dividir el modelo acüstico en dos partes. La 
primera parte trata con la pronunciaciôn y especifica, para cada palabra, una distribu- 
ciôn de probabilidad sobre posibles secuencias de fonemas. Por ejemplo, «ceiling» se 
pronuncia [s iy 1 ih ng], o a veces [s iy 1 ix ng], o en ocasiones incluso [s iy 1 en], Los 
fonemas no son observables directamente, asf, a grandes rasgos, el habla esta represen- 
tada como un modelo oculto de Markov cuya variable de estado X t especifica qué fone¬ 
ma se esta pronunciando en el instante t. 


Vocales 

Consonantes B-N 

Consonantes P-Z 

Fonema 

Ejemplo 

Fonema Ejemplo 

Fonema Ejemplo 

[iy] 

beat 

[b] 

bet 

[P] 

pet 

[ih] 

bit 

[ch] 

Chet 

[r] 

rat 

[eh] 

bet 

[d] 

debt 

[s] 

set 

[æ] 

bat 

H 

fat 

[sh] 

shoe 

[ah] 

but 

[g] 

get 

[t] 

ten 

[ao] 

bought 

[hh] 

hat 

[th] 

thick 

[ow] 

boat 

[hv] 

high 

[dh] 

that 

[uh] 

book 

Üh] 

jet 

[dx] 

butter 

[ey] 

bait 

[k] 

kick 

[v] 

vet 

[er] 

Bert 

[1] 

let 

[w] 

wet 

[ay] 

buy 

[el] 

bottle 

[wh] 

which 

[oy] 

boy 

[m] 

met 

[y] 

yet 

[axr] 

diner 

[em] 

bottom 

[z] 

ZOO 

[aw] 

down 

[n] 

net 

[zh] 

measure 

[ax] 

about 

[en] 

button 



[ix] 

roses 

[ng] 

sing 



[aa] 

cot 

[eng] 

washing 

[-] 

silence 

Figura 15.17 

El alfabeto fonético DARPA, o ARPAbet, enumerando todos los fonemas utiliza- 

dos en inglés 

americano. Hay varias notaciones alternativas, incluyendo un Alfabeto Fonético In- 

temacional (IPA, son las iniciales inglesas), que contiene los fonemas de todas las lenguas conocidas. 


8 ✓ 

«rat» [es=rata\. «rate» [es=tndice] 

9 «stick» \es=palo\. «tick» \es~instante\ 
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PROCESAMIENTO DE 
LA SENAL 


VELOCIDAD DE 
MUESTREO 


FACTOR DE 
CUANTIZACION 


MARCOS 


CARACTERISTICAS 


La segunda parte del modelo acüstico trata con el modo en que los fonemas se ma- 
terializan como seriales acüsticas: esto es, la variable evidencia E t para el modelo ocul- 
to de Markov proporciona las caracterfsticas observadas de la senal acüstica en el instante 
t, y el modelo acüstico espectfico P(E t \X t ), donde X r es el fonema actual. El modelo pue- 
de tener en cuenta variaciones en el tono, velocidad y volumen, y basarse en técnicas 
del procesamiento de la senal para facilitar descripciones de la senal que sean razona- 
blemente robustas frente a estos tipos de variaciones. 

El resto de la secciôn describe los modelos y algoritmos de abajo arriba, comenzando 
con seriales acüsticas y fonemas, las palabras individuales, y fmalmente afirmaciones en¬ 
teras. Concluimos con una descripciôn de como se entrenan todos estos modelos y 
como de bien funcionan los sistemas résultantes. 

Sonidos del habla 

Las ondas de sonido son cambios periôdicos de presiôn que se propagan a través del aire. 
Los sonidos pueden medirse con un micrôfono cuyo diafragma se desplaza por cambios 
de presiôn y généra un flujo diverso continuamente. Un convertidor anâlogo-a-digital 
mide el tamano del flujo, que corresponde a una amplitud de la onda del sonido, en in- 
tervalos discretos determinado por la velocidad de muestreo. Para el habla, una velo¬ 
cidad de muestreo entre ocho y 16 kHz (es decir, de ocho a 16.000 veces por segundo) 
es lo normal. (La müsica de alta calidad muestrea a una velocidad de 44 kHz o mas.) La 
précision de cada mediciôn esta determinada por el factor de cuantizaciôn; los reco- 
nocedores del habla normalmente se mantienen entre ocho y 12 bits. Eso significa que 
un sistema de caracteristicas mrnimas, muestreando a ocho kHz con ocho-bit de cuan¬ 
tizaciôn, requerirra mas o menos medio megabyte por minuto de habla. Serra imprati¬ 
cable construir y manipular la distribuciôn P(senal[fonema) con tanta informaciôn de 
senal; asr, necesitamos desarrollar descripciones mas concisas de la senal acüstica. 

Primero, observamos que aunque la frecuencia del sonido en el habla puede ser varios 
kHz, los cambios en el contexto de la senal ocurren mucho menos a menudo, quizâs en no 
mas de 100 Hz. Asr, los sistemas de habla resumen las propiedades de la senal sobre in- 
tervalos amplios llamados marcos. Una longitud de marco de unos 10 msegs (es decir, 80 
muestras a ocho kHz) es lo sufrcientemente corta como para asegurar que unos pocos fo¬ 
nemas de corta duraciôn se desvanecerân en el proceso de reducciôn. Dentro de cada mar¬ 
co, representamos lo que esta ocurriendo con un vector de caracteristicas. Por ejemplo, 
podemos querer caracterizar la cantidad de energra en cada uno de los distintos rangos de 
frecuencias. Otras caracteristicas importantes incluyen la energra global en un marco y la 
diferencia con respecto al marco anterior. Seleccionar caracteristicas a partir de una senal 
del habla es como escuchar a una orquesta y decir «aqur la corneta francesa esta tocando 
alto y los violines estân tocando con suavidad». La Figura 15.18 muestra la secuencia de 
transformaciones a partir de un sonido al natural hasta una secuencia de marcos. Nôtese 
que los marcos se solapan; esto nos previene de la pérdida de informaciôn si ocurriese un 
evento acüstico importante y fuera a caer justo en la frontera de un marco. 

En nuestro ejemplo, hemos mostrado marcos con solo très caracteristicas. Los sis¬ 
temas reales tienen 10 o incluso cientos de caracteristicas. Si hay n caracteristicas y cada 
una tiene, digamos, 256 valores posibles, enfonces el marco se describe por un punto en 
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CUANTIZACIÔN DEL 
VECTOR 


el espacio //-dimcnsional y hay 256" posibles marcos. Para n > 2 séria impracticable re- 
presentar la distribucion P(caracteristicas\fonema) como una tabla explicita, asf que ne- 
cesitamos mas compresiôn. Hay dos posibles enfoques: 

• El método de cuantizaciôn del vector, o CV, divide el espacio /t-dimensional en, 
digamos, 256 regiones etiquetadas desde Cl hasta C256. Cada marco puede en¬ 
fonces representarse con una simple étiqueta en vez de con un vector de n numé¬ 
ros. Asf, la distribucion en forma de tabla P{CV\fonema) tiene 256 probabilidades 
determinadas por cada fonema. La cuantizaciôn del vector no es el mas popular 
en sistemas a gran escala. 

• En vez de discretizar el espacio de caracterfsticas, podemos usar una distribucion 
continua parametrizada para describir P(caracterîsticas\fonema). Por ejemplo, 
podriamos usar una distribucion gaussiana con media y matriz de covarianza di- 
ferentes para cada uno de los fonemas. Esto trabaja bien si las realizaciones acüs- 
ticas de cada fonema estân agrupadas en una sola région del espacio de 
caracterfsticas. En la prâctica, los sonidos pueden extenderse por varias regiones, 
y debe utilizarse una mixtura de gaussianas. Una mixtura es una suma pondera- 
da de k distribuciones individuales, con lo que P (car acteristicas fonema) tiene k 
pesos, k vectores médias de tamano n, y k matrices de covarianza de tamano n 2 , 
esto es, 0(kn 2 ) paramétras por cada fonema. 

Por supuesto se pierde alguna informaciôn al ir de la senal del habla compléta a una éti¬ 
queta de la CV o un conjunto de paramétras de una mixtura. El arte del procesamiento 
de la senal se apoya en la elecciôn de caracterfsticas y regiones (o gaussianas) de forma 
que la pérdida de informaciôn ut il se minimice. Dado un sonido del habla, éste puede pro- 
nunciarse de muchos modos: estridente o suave, râpido o despacio, con tono alto o bajo, 
con un fondo silencioso o ruidoso, y por cualquiera de los millones de hablantes diferentes, 
cada uno con un acento diferente y tracto vocal. El procesamiento de la senal confia en 
eliminar las variaciones manteniendo las partes comunes que definen el sonido 10 . 


10 El problema complementario, identification del hablante, élimina las partes comunes y mantiene las di- 
ferencias individuales, y entonces intenta hacer coincidir las diferencias con modelos de los hablantes indi¬ 
viduales. 
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CONSONANTES DE 
PARADA 


FONEMAS DE TRES- 
ESTADOS 


EFECTOS DE 
COARTICULACIÔN 

TRIFONEMA 


Hay dos mejoras mas que necesitamos hacer para el modelo sencillo que hemos des- 
crito hasta el momento. El primero trata con la estructura temporal de los fonemas. En el 
habla normal, la mayorfa de los fonemas tienen una duraciôn de 50-100 milisegundos, o 
5-10 marcos. El modelo probabilista P{caracteristicas\fonemas) es el mismo para todos 
estos marcos, dado que la mayoria de los fonemas tienen una buena estructura interna. 
Por ejemplo, [t] es una de las distintas consonantes de parada, en la que el flujo de aire 
se corta por un corto periodo antes de una liberaciôn brusca. Examinando la senal acüs- 
tica, encontramos que [t] comienza con un silencio, una pequena explosion en el medio, 
y (usualmente) un siseo al final. La estructura interna de los fonemas puede captarse por 
un modelo de fonemas de tres-estados; cada fonema tiene los estados Principio, Medio 
y Final, y cada estado tiene su propia distribuciôn sobre las caracterfsticas. 

La segunda mejora se refiere al contexto en el que el fonema es pronunciado. El so- 
nido de un fonema dado puede cambiarse por los fonemas circundantes 1 '. Recuerde que 
los sonidos del habla se producen por el movimiento de los labios, la lengua y mandi- 
bula y forzando el aire a través del tracto vocal. Para coordinar estos movimientos com- 
plejos como a razôn de cinco o mas fonemas por segundo, el cerebro inicia acciones para 
un segundo fonema antes de que el primero se haya completado y, consecuentemente, 
la alteraciôn de uno o ambos fonemas. Por ejemplo, en la pronunciaciôn de «sweet» los 
labios se redondean durante al pronunciaciôn de [s] con antelaciôn al siguiente [w], Es¬ 
tos efectos de coarticulaciôn se capturan parcialmente por el modelo trifonema, en el 
que al modelo acüstico para cada fonema se le permite depender del fonema preceden¬ 
te y siguiente. Asi, la [w] de «sweet» se escribe [w(s,iy)j, es decir, [w] con contexto-iz- 
quierdo [s] y contexto-derecho [iy], 

El efecto combinado de los tres-estados en los modelos trifonema hace incrementar 
el nümero de posibles estados del proceso temporal desde n fonemas en el alfabeto fo- 
nético original (n ~ 50 para el ARPAbet) hasta 3/r. La experiencia demuestra que la pré¬ 
cision se mejora en vez de compensar el costo extra en términos de inferencia y aprendizaje. 


Palabras 

Podemos pensar en cada palabra como la especificaciôn de una distribuciôn de proba- 
bilidad distinta P{X v \palabra), donde A détermina el estado del fonema en el z-ésimo 
marco. Tipicamente, dividimos esta distribuciôn en dos partes. El modelo de pronun¬ 
ciaciôn que proporciona una distribuciôn sobre la secuencia de fonemas (ignorando tiem- 
pos métricos y marcos), mientras que el modelo del fonema describe como un fonema 
se pasa a una secuencia de marcos. 

Considéré la palabra «tomato» 12 . De acuerdo con Gershwin (1937), usted dice [t ow 
m ey t ow] y yo digo [t ow m aa t ow]. En la parte superior de la Figura 15.19 se mues- 
tra un modelo de transiciôn que prevé esta variaciôn. Hay solo dos posibles caminos a 
través del modelo, uno corresponde a la secuencia de fonemas [t ow m ey t ow] y la otra 


11 En este sentido, el «modelo del fonema» del habla deberia pensarse mâs como una aproximaciôn ütil que 

como una ley inmutable. 

12 

«tomato» [es = tomate]. 
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(a) Modelo de palabra con variaciôn dialéctica: 



(b) Modelo de palabra con variaciôn dialéctica y de coarticulaciôn: 



Figura 15.19 Dos modelos de pronunciaciôn de la palabra «tomato». Cada modelo se muestra 
como un diagrama de transiciôn donde los estados son circulos y las fléchas muestran las transi- 
ciones permitidas con sus probabilidades asociadas. (a) Un modelo que tiene en cuenta diferencias 
dialécticas. Los numéros 0,5 son estimaciones basadas en las pronunciaciones preferidas de los dos 
autores. (b) Un modelo con un efecto de coarticulaciôn en la primera vocal, que permite o el fo- 
nema [ow] o el fonema [ah]. 


a [t ow m aa t ow], La probabilidad de un camino es el producto de las probabilidades 
de los arcos que construyen el camino: 

Z 3 ( [ fo w m cy to w ] | « t o m a to » ) = P{ \ towmaatow] | «tomato») = 0,5 

El segundo origen de la variaciôn fonética es la coarticulaciôn. Por ejemplo, el fonema 
[t] se produce con la lengua en lo alto de la boca, mientras que [ow] tiene la lengua cer- 
ca de la parte baja. Cuando hablamos râpidamente, la lengua a menudo va a una posiciôn 
intermedia, y obtenemos [t ah] en vez de [t ow], La parte inferior de la Figura 15.19 pro- 
porciona un modelo de pronunciaciôn mas complicado para «tomato» que tiene en cuen¬ 
ta estos efectos de coarticulaciôn. En este modelo, hay cuatro caminos distintos, y tenemos 

P( \ towmeytow ] \ « tom ato » ) = P( \ towmaatow ] | «tomato») = 0,1 

P([ta/tmcyfc>vv] [«tomato») = P([tahmaatow] [«tomato») = 0,4 

Se pueden construir modelos similares para cada palabra que queramos ser capaces de 
reconocer. 

El modelo para un fonema de tres-estados se muestra como un diagrama de transiciôn 
de estados en la Figura 15.20. El modelo es para un fonema particular, [m], pero todos los 
fonemas tendrân modelos con topologia similar. Para cada estado del fonema, mostramos 
el modelo acüstico asociado, suponiendo que la senal esta representada por un étiqueta de 
CV. Por ejemplo, el modelo afirma que P{E t = C\X t = [m] Principio ) = 0,5. Nôtese los auto- 
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PALABRAS AISLADAS 


DISCURSO CONTINUO 


MOM de fonema para [m] : 

0,3 0,9 0,4 



Probabilidades de salida para el MOM de fonema: 

Principio: Medio: Final: 

Cl 0,5 C 3 :0,2 C 4 :0,1 

C 2 :0,2 C 4 :0,7 C 6 :0,5 

C 3 :0,3 C 5 :0,1 C 7 :0,4 


Figura 15.20 Un MOM para el fonema [m] de tres-estados. Cada estado tiene varias posibles sa- 
lidas, cada una con su propia probabilidad. Las étiquetas desde C, hasta C 7 para la CV son arbi- 
tr arias. 


ciclos de la figura; por ejemplo el estado [m] Medio persiste con probabilidad 0.9, lo que sig- 
nifica que el estado [m] Medio tiene una duraciôn esperada de 10 marcos. En el modelo te- 
nemos que la duraciôn de cada fonema es independiente de la duraciôn de los otros 
fonemas; un modelo mas sofisticado podria distinguir entre hablar râpido y despacio. 

Podemos construir modelos similares para cada fonema, posiblemente dependien- 
do del contexto trifonema. Cada modelo de palabra, cuando se combinan con los mo¬ 
delos de fonemas, da una especificaciôn compléta de un MOM. El modelo especifica 
las probabilidades de transiciôn entre los estados de los fonemas de marco en marco, asi 
como las probabilidades de las caracteristicas acüsticas para cada estado del fonema. 

Si queremos reconocer palabras aisladas (esto es, palabras habladas sin ningün con¬ 
texto inmediato y con limites claros) enfonces necesitamos encontrar la palabra que ma- 
ximiza 

P{lialabra)\e x .) = aP{e v \palahra)P(palahra) 

La probabilidad a priori P(palabrd) puede obtenerse a partir de los datos de texto en cur- 
so. P{e \.\palabrd) es la verosimilitud de la secuencia de caracteristicas acüsticas de acuer- 
do al modelo de palabra. El Apartado 15.2 tratô el câlculo de taies verosimilitudes; en 
concreto, la Ecuaciôn (15.5) proporciona un sencillo câlculo recursivo cuyo coste es li- 
neal en t y en el nümero de estados de la cadena de Markov. Para encontrar la palabra 
mas creible, podemos desarrollar este câlculo para cada posible modelo de palabra, mul- 
tiplicando por la a priori, y seleccionar la mejor palabra respectivamente. 

Oraciones 

Para tener una conversaciôn con un humano, una mâquina necesita ser capaz de reco¬ 
nocer un discurso continuo en vez de palabras aisladas. Uno puede imaginar que el dis- 
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SEGMENTACIÔN 


BIGRAM 


TRIGRAM 


curso continuo no es mas que una secuencia de palabras, y para cada una de las cuales 
podemos aplicar el algoritmo de la seccion anterior. Este enfoque falla por dos razones. 
Primero, ya hemos visto (Apartado 15.2) que la secuencia de las palabras mas creibles 
no es lo mismo que la secuencia de palabras mas creible. Por ejemplo, en la pelicula Coge 
el Dinero y Corre, un cajero de banco interpréta la nota de un atraco que esta descuida- 
damente escrita por Woody Allen en la que dice «I hâve a gub». Un modelo bueno de 
lenguaje sugeriria «I hâve a gun» 13 como secuencia mucho mas creible, incluso aunque 
la ültima palabra se parezca mas a «gub» que a «gun». La segunda cuestion que debe- 
mos afrontar con el discurso continuo es la segmentaciôn (el problema de decidir don- 
de finaliza una palabra y comienza la siguiente). Cualquiera que haya intentado aprender 
un lenguaje extranjero apreciarâ este problema: al principio todas las palabras parecen 
ir juntas. Gradualmente, uno aprende a seleccionar palabras a partir de la confusion de 
sonidos. En este caso, la primera impresion es correcta; un anâlisis espectrogrâfico mues- 
tra que en discursos fluidos, las palabras realmente van juntas sin silencios entre ellas. 
Aprendemos a identificar los limites de las palabras a pesar de carecer de silencios. 

Comencemos con el modelo del lenguaje, cuyo trabajo en el reconocimiento del ha- 
bla es especificar la probabilidad de cada una de las secuencias posibles de palabras. Uti- 
lizando la notacion w v ... ,w n para indicar una cadena de n palabras y w ; para denotar la 
/-ésima palabra de la cadena, podemos escribir una expresion para la probabilidad de una 
cadena con el uso de la régla de la cadena como sigue 14 : 

P(w 1 ••• w„) = P(w{) / > (w 2 |w 1 ) / > (w 3 |w 1 w 2 ) P(w n \w 1 ••• w„_j) = n;' =1 P(w t \w l w t _ x ) 

La mayoria de estos términos son bastante complejos y dificiles de estimar o calcular. 
Afortunadamente, podemos aproximar esta formula con algo mas sencillo y que siga cap- 
turando una gran parte del modelo del lenguaje. Una version sencilla, popular y efecti- 
va es el modelo bigram. Este modelo aproxima P(w\w x ■ ■ ■ w L _,) por Piw^w^ j). En otras 
palabras, considéra la hipotesis de Markov de primer orden para la secuencia de pala¬ 
bras. 

Una gran ventaja del modelo bigram es que el modelo es fâcil de entrenar contando 
el numéro de veces que cada par de palabras aparecen en un campo representativo de 
cadenas y utilizando los contadores para estimar las probabilidades. Por ejemplo, si «a» 
aparece 10.000 veces en el campo de entrenamiento y es seguido por «gun» 37 veces, 
entonces Pigun^a^ j) = 37/10.000, donde P indica la probabilidad estimada. Después 
de cada entrenamiento uno deberia esperar que «I hâve» y «a gun» tengan altas proba¬ 
bilidades estimadas, mientras que «I has» y «an gun» deberian tener poca probabilidad, 
La Figura 15.21 muestra algunos contadores de bigram obtenidos de las palabras de este 
libro. 

Es posible ir al modelo trigram que proporciona valores para P(w t \w i _ l w i _ 1 ). Este 
es un modelo de lenguaje mas potente, capaz de discriminar que «ate a banana» es mas 


13 

«I hâve a gun» [es = Tengo una pistola ]. 

14 Estrictamente hablando, la probabilidad de una secuencia de palabras dépende fuertemente del contexto 
de la expresion; por ejemplo, «I hâve a gun» es mucho mâs comün en notas que se pasan a un cajero de ban¬ 
co que si esta en, digamos, el Wall Street Journal. Pocos reconocedores del habla manejan contextos, apar¬ 
té de los de aprendizaje de un modelo de lenguaje de propôsito-especial para una tarea particular. 
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Palabra 

Contador 

unigram 

Palabra anterior 

of 

in 

is 

on 

to 

front 

model 

agent 

the 

33508 

3833 

2479 

832 

944 

1365 

597 

28 

24 

on 

2573 

1 

0 

33 

2 

1 

0 

0 

6 

of 

15474 

0 

0 

29 

1 

0 

0 

88 

7 

to 

11527 

0 

4 

450 

21 

4 

16 

9 

82 

is 

10566 

3 

6 

1 

4 

2 

1 

47 

127 

model 

752 

8 

1 

0 

1 

14 

0 

6 

4 

agent 

2100 

10 

3 

3 

2 

3 

0 

0 

36 

idea 

241 

0 

0 

0 

0 

0 

0 

0 

0 


Figura 15.21 Una tabla parcial de contadores unigram y bigram para las palabras de este libro. 
«The» es la palabra mas comün con contador de 33.508 (sobre 513.893 palabras totales). El bigram 
«of the» es el mas comün, con 3.833. Algunos contadores son mayores al esperado (por ejemplo 
cuatro para «on is») ya que los contadores ignoran puntuaciones: una oraciôn debe finalizar con 
«on» y la siguiente empieza con «is». 


crefble que «ate a bandanna» 15 . Para los modelos trigram y hasta una extension menor 
para bigram y modelos unigram, hay un problema con los contadores a cero: no nece- 
sitariamos decir que una combinaciôn de palabras es imposible solo porque no apare- 
cieron en el campo de entrenamiento. El proceso de suavizado da un probabilidad no 
nula a taies combinaciones. Se discute en el Apartado 23.1. 

Los modelos bigram y trigram no son tan sofisticados como algunos de los mode¬ 
los gramaticales que veremos en los Capitulos 22 y 23, pero justifican mejor los efec- 
tos locales sensitivos al contexto y se las arreglan para capturai - alguna sintaxis local. Por 
ejemplo, el hecho de que el par de palabras «I has» y «man hâve» obtengan menos pun- 
tuaciôn refleja la convencion sujeto-verbo. El problema es que estas relaciones pueden 
detectarse solo localmente: «the man hâve» obtiene poca puntuaciôn, pero «the man with 
the yellow hat hâve» no esta penalizado. 

Ahora consideremos como combinar el modelo del lenguaje con los modelos de pa¬ 
labras para que podamos tratar secuencias de palabras correctamente. Asumiremos un 
modelo de lenguaje bigram por simplicidad. Con tal modelo, podemos combinar todos 
los modelos de palabras (que estân compuestos a su vez de modelos de pronunciacion 
y modelos de fonemas) en un gran modelo MOM. Un estado en MOM de palabra-sim- 
ple es un marco etiquetado por el fonema en curso y el estado del fonema (por ejemplo 
[ml/™",Si cada palabra tiene una media de p fonema de tres-estados en su modelo 
de pronunciacion, y hay W palabras, enfonces el MOM de discurso-continuo tiene 3pW 
estados. Las transiciones pueden ocurrir entre estados de fonemas dentro del fonema dado, 
entre fonemas de una palabra dada, y entre el estado final de una palabra y el estado ini- 
cial de otro. Las transiciones entre palabras suceden segün la probabilidad establecida 
por el modelo bigram. 


15 


«ate a banana» [es=comî un plâtano ]. «ate a bandanna» [es=comi un panuelo de vivos colores]. 
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Una vez que hemos construido un MOM combinado, podemos usarlo para analizar 
la senal del discurso continuo. En particular, el algoritmo de Viterbi contenido en la Ecua- 
cion (15.9) puede usarse para encontrar la secuencia de estados mas crefble. A partir de 
esta secuencia de estados, podemos entonces extraer una secuencia de palabras simple- 
mente leyendo las étiquetas de las palabras a partir de los estados. Asf, el algoritmo de 
Viterbi resuelve el problema de segmentaciôn de palabras utilizando programacion di- 
nâmica para considerar (en consecuencia) todas las secuencias de palabras posibles y fron- 
teras de las palabras simultâneamente. 

Nôtese que no dijimos «podemos extraer la secuencia de palabras mâs creible» . La 
secuencia de palabras mâs probable no es necesariamente la que contiene la secuencia 
de estados mâs probable. Esto es porque la probabilidad de una secuencia de palabras 
es la suma de las probabilidades sobre todas las secuencias de estados posibles que sean 
consistentes con esa secuencia de palabras. La comparaciôn de dos secuencias de pala¬ 
bras, digamos, «a back» y «aback» 16 , puede ser ese caso en el que hay 10 alternativas 
de secuencias de estados para «a back», cada una con probabilidad 0,03, pero solo una 
secuencia de estados para «aback», con probabilidad 0,20. Viterbi elige «aback», pero 
«a back» es, en realidad, mâs probable. 

En la prâctica, esta dificultad no es una amenaza de por vida, solamente es lo sufi- 
cientemente serio como para que se hayan ensayado otros enfoques. El mâs comün es 
descodificador a* el descodifîcador A*, que hace un uso ingenioso de la büsqueda A* (véase Capitulo 4) 
para encontrar la secuencia de palabras mâs probable. La idea es ver cada secuencia de 
palabras como un camino a través de un grafo cuyos nodos estân etiquetados con pala¬ 
bras. Los sucesores de un nodo son todas las palabras que pueden venir a continuaciôn; 
asl, el grafo para todas las oraciones de longitud n o menos tiene n capas, cada una de 
anchura como mâximo de W, donde W es el nümero de palabras posibles. Con un mo- 
delo bigram, el costo g(w I ,w 2 ) de un arco entre los nodos etiquetados w 1 hasta w 2 viene 
dado por -log P(w 2 |w 1 ); de este modo, el coste del camino total de la secuencia es 

n n 

Cost(w 1 ••• w n ) = 2 - log/ > (w i |w,._ 1 ) = - log n Aw,k-i) 

i=l 1=1 

Con esta definicion de costo del camino, la büsqueda del camino mâs corto es exactamen- 
te équivalente a buscar la secuencia de palabras mâs probable. Para que el proceso sea efi- 
ciente, también necesitamos una buena heurfstica h(w) para estimar los costos para completar 
la secuencia de palabras. Obviamente, esto tiene que hacer algo sobre cuânto de la senal del 
habla no se ha contemplado todavia por las palabras del camino en curso. Hasta el momento, 
no se han disenado heurfsticas especialmente interesantes para este problema. 

Construcciôn de un reconocedor del habla 

La calidad de un sistema de reconocimiento del habla dépende de la calidad de todos 
sus componentes (el modelo del lenguaje, los modelos de pronunciaciôn de palabras, los 
modelos de fonemas, y los algoritmos de procesamiento de senal utilizados para obte- 
ner caracteristicas espectrales a partir de la senal acüstica). Hemos discutido como el mo- 


16 «aback» significa «espalda» o «respaldo». «aback» signifïca «por sorpresa». 
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delo del lenguaje puede construirse, y dejamos los detalles del procesamiento de la sé¬ 
riai para otros libros de texto. Lo dejamos con los modelos de pronunciaciôn y fonemas. 
La estructura de los modelos de pronunciaciôn (como los modelos del «tomato» de la 
Figura 15.19) se desarrolla usualmente a mano. Grandes diccionarios de pronunciaciôn 
estân disponibles para el inglés y otros lenguajes, aunque sus precisiones varian enor- 
memente. La estmctura de los modelos de fonemas de tres-estados es la misma para to- 
dos los fonemas, como se mostrô en la Figura 15.20. Eso déjà a las probabilidades. /Como 
se obtienen éstas, dado que los modelos podrian necesitar cientos de miles o millones 
de paramétras? 

El ünico método plausible es aprender los modelos a partir de los datos del habla en 
curso, de lo que ciertamente no falta. La siguiente pregunta es como hacer el aprendi- 
zaje. Damos la respuesta compléta en el Capitulo 20, pero podemos presentar las ideas 
principales aqui. Considéré el modelo de lenguaje biagram; explicamos como aprenderlo 
estudiando las frecuencias de pares de palabras en el texto considerado. /Podemos ha¬ 
cer lo mismo para, pongamos, las probabilidades de transiciôn de los fonemas en el mo¬ 
delo de pronunciaciôn? La respuesta es si, pero solo si alguien se toma la molestia de 
anotar cada ocurrencia de cada una de las palabras con la secuencia de fonemas correc- 
ta. Esto es una tarea dificil y propensa al error, pero se ha llevado a cabo para algunos 
conjuntos de datos estândares que contienen varias horas de habla. Si sabemos la se¬ 
cuencia de fonemas, podemos estimar probabilidades de transiciôn para los modelos de 
pronunciaciôn a partir de las frecuencias de pares de fonemas. Similarmente, si damos 
el estado del fonema en cada marco (una tarea de etiquetado manual afin mas laborio- 
sa) enfonces podemos estimar probabilidades de transiciôn para los modelos del fone¬ 
ma. Dado el estado del fonema y las caracteristicas acüsticas de cada marco, podemos 
también estimar el modelo acüstico, o bien directamente a partir de las frecuencias 
(para modelos de CV) o bien utilizando métodos de ajuste estadistico (para modelos de 
mixtura de gaussinas; véase Capitulo 20). 

El coste y lo excepcional de datos etiquetados a mano, y el hecho de que los conjun¬ 
tos disponibles de datos etiquetados a mano podrian no representar los tipos de oradores 
y condiciones acüsticas que se obtuvieran en un nuevo contexto de reconocimiento, po¬ 
drian condenar este enfoque al fracaso. Afortunadamente, el algoritmo de expectaciôn- 
maximizaciôn o EM aprende modelos MOM de transiciôn y sensor sin la necesidad de 
datos etiquetados. Estimaciones derivadas de los datos etiquetados a mano pueden utili- 
zarse para inicializar los modelos; después de eso, EM toma el relevo y entrena los mo¬ 
delos en vez de la tarea a mano. La idea es sencilla: dado un MOM y una secuencia de 
observaciones, podemos usar los algoritmos de suavizado de los Apartados 15.2 y 15.3 
para calcular la probabilidad de cada estado en cada paso de tiempo y, por una extension 
sencilla, la probabilidad de cada par estado-estado en pasos de tiempo consecutivos. Es¬ 
tas probabilidades pueden verse como étiquetas inciertas. A partir de las étiquetas inciertas, 
podemos estimar nuevas probabilidades de transiciôn y sensor, y se repite el procedimiento 
EM. El método garantiza el incremento del ajuste entre modelo y datos en cada iteraciôn, 
y generalmente converge a un conjunto mucho mejor de valores paramétricos que aque- 
llos que se proporcionaron por las estimaciones iniciales, las etiquetadas a mano. 

En el estado del arte de los sistema de habla se utilizan conjuntos de datos énormes 
y recursos computacionales masivos para entrenar los modelos. Para reconocimiento de 
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palabras aisladas bajo buenas condiciones acüsticas (sin ruido de fondo o sin reverbe- 
raciones) con un vocabulario de unos pocos cientos de palabras y un solo orador, la pré¬ 
cision puede estar por el 99 por ciento. Para discursos continuos no restringidos con varios 
oradores, es normal un ajuste entre el 60 por ciento y el 80 por ciento, incluso con bue¬ 
nas condiciones acüsticas. Con ruido de fondo y transmision telefonica, el ajuste se dé¬ 
tériora aün mas. Aunque los sistemas aplicados han mejorado continuamente durante 
décadas, hay todavfa cabida para muchas nuevas ideas. 


15.7 Resumen 


En este capitulo se ha tratado el problema general de la representacion y del razonamiento 
con procesos temporales probabilistas. Los puntos principales son los siguientes: 

• El estado cambiante del mundo se trata utilizando un conjunto de variables alea- 
torias para representar el estado en cada punto en el tiempo. 

• Las representaciones pueden disenarse para satisfacer la propiedad de Markov, 
con el fin de que el future sea independiente del pasado dado el présente. Combi- 
nada con la hipotesis de que el proceso es estacionario (esto es, las dinâmicas no 
cambian en el tiempo), esto simplifica enormemente la representacion. 

• Un modelo de probabilidad temporal puede pensarse como el formado por un rno- 
delo de transiciôn que describe la evolucion y un modelo sensor que describe el 
proceso de observacion. 

• Las tareas de inferencia principal en modelos temporales son filtrado, predicciôn, 
suavizado, y el câlculo de la explicaciôn mas probable. Cada una de éstas pue¬ 
de conseguirse utilizando algoritmos recursivos y sencillos con tiempos de ejecu- 
ciôn lineales en la longitud de la secuencia. 

• Très familias de modelos temporales se han estudiado con mas profundidad: mo¬ 
delos ocultos de Markov, filtros de Kalman y redes Bayesiandas dinâmicas (que 
incluye a los otros dos como casos especiales). 

• El reconocimiento del habla y el rastreo son dos aplicaciones importantes de los 
modelos de probabilidad temporal. 

• A menos que se hagan suposiciones especificas, como en los filtros de Kalman, 
la inferencia exacta con muchas variables de estado se présenta intratable. En la 
prâctica, el algoritmo de filtrado de particulas parece ser un algoritmo aproxi- 
mado efectivo. 



Notas bibliogrâficas e histôricas 

Muchas de las ideas bâsicas para la estimacion del estado de sistemas dinâmicos vie- 
nen del matemâtico C. F. Gauss (1809), quien formulé un algoritmo determinista de 
mmimos cuadrados para el problema de la estimacion de orbitas a partir de observa- 
ciones astronômicas. El matemâtico ruso A. A. Markov (1913) desarrollô lo que se lia- 
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ASOCIACIÔN 
DE DATOS 


mo mas tarde la hipotesis de Markov en el anâlisis de procesos estocâsticos; estimo 
una cadena de Markov de primer orden sobre las letras del texto de Eugene Onegin. 
Un trabajo clasificado como significativo se hizo durante la Segunda Guerra Mundial 
por Wiener (1942) para procesos de tiempo continuo y por Kolmogorov (1941) para 
procesos de tiempo discreto. Aunque este trabajo condujo a desarrollos tecnologicos 
importantes en los 20 anos siguientes, el uso de una representacién en el dominio de 
la frecuencia realizaba muchos câlculos bastante engorrosos. El modelado directo en 
el espacio de estados del proceso estocâstico résulté ser mas sencillo, como mostra- 
ron Swerling (1959) y Kalman (1960). El articulo presentado posteriormente es lo que 
ahora se conoce como el filtro de Kalman para inferencia hacia delante en sistemas 
lineales con ruido gaussiano. Resultados importantes sobre suavizado los dedujo 
Rauch et al. (1965), y la impresionante técnica de suavizado denominada de Rauch- 
Tung-Striebel es todavia un técnica estândar hoy en dia. Muchos resultados iniciales 
fueron recogidos en Gelb (1974). Bar-Shalom y Fortmann (1988) dan un tratamiento 
mas moderno con un sabor Bayesiano, al igual que muchas referencias a la amplia li- 
teratura sobre el tema. Chatfield (1989) aborda el enfoque «clâsico» del anâlisis de sé¬ 
riés temporales. 

En muchas aplicaciones del filtrado de Kalman, uno debe tratar no solo con per- 
cepciones y dinâmicas inciertas, sino también con identidad incierta; esto es, si hay di- 
versos objetos que se estân monitorizando, el sistema debe determinar qué observaciones 
fueron generadas y por qué objetos antes de que pueda actualizar cada una de las esti 
maciones del estado. Este es el problema de asociaciôn de datos (Bar-Shalom y Fort¬ 
mann, 1988; Bar-Shalom, 1992). Con n observaciones y n caminos (un caso bastante be- 
névolo), hay ni posibles asignaciones de las observaciones a los caminos; un tratamiento 
probabilista correcto debe tener en cuenta a todas ellas, y puede demostrarse que esto 
es NP-duro (Cox, 1993; Cox y Hingorani, 1994). Los métodos aproximados de tiempo 
polinomial basados en MCCM parecen trabajar bien en la prâctica (Pasula et al., 1999). 
Es interesante notar que el problema de asociacién de datos es un caso particular de la 
inferencia probabilista en lenguajes de primer-orden; a diferencia de la mayoria de los 
problemas de inferencia probabilista, que son puramente proposicionales, la asociacién 
de datos involucra a objetos asi como la relaciôn de identidad. Esta asi mtimamente uni- 
do a los lenguajes probabilistas de primer-orden que se mencionaron en el Capitulo 14. 
Trabajos recientes han demostrado que el razonamiento sobre la identidad en general, 
y la asociaciôn de datos en particular, puede llevarse a cabo dentro del marco probabi¬ 
lista de primer-orden (Pasula y Russell, 2001). 

El modelo oculto de Markov y los algoritmos asociados para inferencia y aprendi- 
zaje, incluyendo el algoritmo hacia delante-atrâs, fueron desarrollados por Baum y Pé¬ 
trie (1966). Ideas similares aparecieron también independientemente en la comunidad 
de los filtrados de Kalman (Rauch et al., 1965). El algoritmo hacia delante-atrâs fue uno 
de los precursores principales de la formulaciôn general del algoritmo EM (Dempster 
et al., 1977); véase también Capitulo 20. El suavizado en el espacio-constante aparece 
en Binder et al. (1997b), que construye el algoritmo divide y vencerâs desarrollado en 
el Ejercicio 15.3. 

Las redes bayesianas dinâmicas (RBDs) pueden verse como codificaciones espar- 
cida de un proceso de Markov y se utilizaron por primera vez en IA por Dean y Kana- 
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zawa (1989b), Nicholson (1992), y Kjaerulff (1992). El ültimo trabajo incluye una ex¬ 
tension genérica al sistema de redes de creencia HUGIN para suplir habilidades nece- 
sarias para la generaciôn y compilaciôn de redes bayesianas dinâmicas. Las redes 
bayesianas dinâmicas se han hecho populares para el modelado de diversos procesos de 
movimiento complejo en vision por computador (Huang et al., 1994; Intille y Bobick, 
1999). El enlace entre MOMs y RBDs, y entre el algoritmo hacia delante-atrâs y pro- 
pagaciôn de redes bayesianas, las hizo explicitas Smyth et al. (1997). Una unificaciôn 
mas con los filtros de Kalman (y otros modelos estadisticos) aparece en Roweis y Ghah- 
ramani (1999). 

El algoritmo de filtrado de particulas descrito en el Apartado 15.5 tiene una histo- 
ria particularmente interesante. El primer algoritmo de muestreo para el filtrado se desa- 
rrollô en la comunidad de la teoria de control por Handschin y Mayne (1969), y la idea 
de remuestrear, que es el nücleo del filtrado de particulas, apareciô en un articulo mso 
de control (Zaritskii et al., 1975). Fue posteriormente reinventado en estadistica como 
remuestreo del muestreo-por-importancia secuencial, o SIR en términos ingleses (Ru¬ 
bin, 1988; Liu y Chen, 1998), en teoria de control como filtrado de particulas (Gordon 
et al., 1993; Gordon, 1994), en IA como supervivencia del mejor ajuste (Kanazawa et 
al., 1995), y en vision por computador como condensaciôn (Isard y Blake, 1996). El 
articulo de Kanazawa et al. (1995) incluye una mejora denominada inversion de evi- 
dencia por la que el estado en el instante t + 1 se muestrea condicionado tanto al esta- 
do en el instante t como a la evidencia en el instante t + 1. Esto permite a la evidencia 
influir directamente en la generaciôn de la muestra y Doucet (1997) probô que reduce 
el error de la aproximaciôn. 

Otros métodos para filtrado aproximado incluyen el algoritmo MCCM descom- 
puesto (Marthi et al., 2002) y el método aproximado factorizado de Boyen et al. (1999). 
Estos dos métodos tienen la propiedad importante de que el error de aproximaciôn no 
diverge en el tiempo. Técnicas variables ( véase Capitulo 14) también se han desarrolla- 
do para modelos temporales. Ghahramani y Jordan (1997) estudian un algoritmo apro¬ 
ximado para el MCCM factorial, una RBD en la que dos o mas cadenas de Markov 
evolucionan independientemente y se enlazan por una lista de observaciones comparti- 
das. Jordan et al. (1998) cubren otras aplicaciones. Las propiedades de tiempos mezclados 
se discuten en Pak (2001) y (Luby y Vigoda, 1999). 

La prehistoria del reconocimiento del habla comenzô en 1920 con Radio Rex, un jue- 
go con forma de perro activado por voz. Rex saltaba como respuesta a frecuencias de 
sonido prôximas a los 500 Hz, lo que corresponde a la vocal [eh] de «;Rex!». Algo mas 
serio empezô a funcionar después de la Segunda Guerra Mundial. En los Laboratorios 
AT&T, se construyô un sistema para el reconocimiento de digitos aislados (Davis et al., 
1952) mediante coincidencias de patrones sencillos de caracteristicas acüsticas. Las 
probabilidades de transiciôn de fonemas se utilizaron primera en un sistema construido 
en University College, Londres, por Fry (1959) y Denes (1959). A principios de 1971, 
la Defense Advanced Research Projects Agency (DARPA) del Departamento de Defensa 
de los Estados Unidos financiô cuatro proyectos de cinco anos, que competian entre si, 
para desarrollar sistemas de reconocimiento del hablar de alto desarrollo. El ganador, y 
el ünico sistema que alcanzaba el objetivo de tener una précision del 90 por ciento con 
un vocabulario de E000 palabras, fue el sistema Harpy de la CMU (Lowerre, 1976; 
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Lowerre y Reddy, 1980) 17 . La version final de Harpy provenia de un sistema llamado 
Dragon construido por el estudiante graduado James Baker (1975) de la CMU; Dra¬ 
gon fue el primera en usar un MOM para el habla. Casi simultâneamente, Jelinek (1976) 
de IBM desarrollô otro sistema basado en un MOM. A partir de ese momento en ade- 
lante, los métodos probabilistas en general, y los MOMs en particular, dominaron la in¬ 
vestigacion y desarrollo del reconocimiento del habla. Los anos recientes se caracterizan 
por progresos crecientes, conjuntos de datos y modelos mas grandes, y competiciones 
mas rigurosas en tareas sobre el habla mas realista. Algunos investigadores han explo- 
rado la posibilidad de usar RBDs en vez de MOMs para el lenguaje, con el proposito de 
utilizar la mayor potencia expresiva de las RBDs para capturar mas cosas sobre los es- 
tados ocultos complejos del mecanismo del habla (Zweig y Russell, 1998; Richardson 
et al., 2000). 

Existen varios libros de texto buenos sobre el reconocimiento del habla (Rabiner y 
Juang, 1993; Jelinek, 1997; Gold y Morgan, 2000; Huang et al., 2001). Waibel y Lee 
(1990) recogen articulos importantes del area, incluyendo algunos tutoriales. La pre- 
sentacion en este capitulo recurre a la vision general de Kay, Gawron y Norvig (1994) 
y del libre de Jurafsky y Martin (2000). La investigacion del reconocimiento del habla 
se publica en Computer Speech and Language, Speech Communications, y la IEEE Trans¬ 
actions on Acoustics, Speech, and Signal Processing y en los Workshops de DARPA so¬ 
bre Procesamiento del Lenguaje Natural y el Habla y las conferencias Eurospeech, 
ICSLP, y ASRU. 



EJERCICIOS 

15.1 Demuestre que cualquier proceso de Markov de segundo orden puede reescribirse 
como un proceso de Markov de primer orden con un conjunto aumentado de variables 
de estado. Puede siempre hacerse con parsimonia ; es decir, sin incrementar el nüme- 
ro de paramétras necesarios para especificar el modelo de transicion? 


15.2 En este ejercicio examinamos qué le ocurren a las probabilidades del mundo del 
paraguas en el limite de una larga secuencia de tiempos. 

a) Suponga que observamos una secuencia sin fin de dias en los que aparece el pa¬ 
raguas. Demuestre que, conforme pasan los dias, la probabilidad de llover en el 
dia actual tiene un crecimiento monotono hacia un punto fijo. Calcule este pun- 
to fijo. 

b) Ahora considéré hacer un pronôstico mas alla en el future, dadas solo las 
dos primeras observaciones del paraguas. Primera, calcule la probabilidad 
P(R 1+k \U l ,U 2 ) para k = 1.. .20 y dibuje el resultado. Deberia ver que la proba¬ 
bilidad converge hacia un punto fijo. Calcule el valor exacto de este punto fijo. 


17 El que quedo segundo en la competicion, Hearsay-II (Erman et al., 1980), tuvo una gran influencia en 
otras ramas de la investigacion de la IA por el uso de la arquitectura de pizarra. Era un sistema experto 
basado en réglas con un numéro de fuentes de conocimiento modulares, mas o menos independientes, que 
estaban comunicados por una pizarra comün en la que podîan escribir y leer. Los sistemas de pizarra son la 
base de las modemas arquitecturas de interfaz de usuario. 
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15.3 Este ejercicio desarrolla una variante de eficiencia de espacio del algoritmo ha- 
cia delante-atrâs que se describiô en la Figura 15.4. Queremos calcular P(X ; Je w ) para 
k = 1Esto se harâ con un enfoque del divide y vencerâs. 

a) Suponga, por sencillez, que t es impar, y tomemos el punto medio h = (f + l)/2. 
Demuestre que P(Xjej.,) puede calcularse para k = 1,..., h dado solo el men- 
saje hacia delante inicial f 10 , el mensaje hacia atrâs b A+ w , y la evidencia e 1A . 

b) Demuestre un resultado similar para la segunda mitad de la secuencia. 

c) Dados los resultados de (a) y (b), un algoritmo divide y vencerâs recursivo pue¬ 
de construirse: primero ejecutando hacia-delante a lo largo de la secuencia y des- 
pués hacia-atrâs desde el final, almacenando solo los mensajes necesarios en 
medio y los finales. Enfonces el algoritmo se llama en cada mitad. Escriba el 
algoritmo al detalle. 

d) Calcule la complejidad en tiempo y espacio del algoritmo como una funcion de 
t, la longitud de la secuencia. / ; C6mo cambia si dividimos la entrada en mas de 
dos segmentos? 

15.4 En el Apartado 15.2, esbozamos un procedimiento déficiente para la büsqueda 
de la secuencia de estados mas creible, dada una secuencia de observaciones. El proce¬ 
dimiento implica la büsqueda del estado mas creible en cada paso de tiempo, utilizan- 
do el suavizado, y devolviendo la secuencia compuesta por estos estados. Demuestre que, 
para algunos modelos probabilistas temporales y para algunas secuencias de observa¬ 
ciones, este procedimiento retorna una secuencia de estados imposible (es decir, la pro- 
babilidad posteriori de la secuencia es cero). 

15.5 A menudo, deseamos monitorizar un sistema de estados continuos cuyo com- 
portamiento cambia de forma impredecible entre un conjunto de k «modos» distin- 
tos. Por ejemplo, un avion intentando evadir un misil puede ejecutar una sérié de 
maniobras dispares que el misil puede intentai - rastrear. Una representaciôn de red ba- 
yesiana de tal modelo de fîltro de Kalman de conmutaciôn se muestra en la Figu¬ 
ra 15.22. 

a) Suponga que el estado discreto S t tiene k posibles valores y que la estimacion 
del estado continuo a priori P(X 0 ) es una distribuciôn gaussiana multivariable. 
Demuestre que la predicciôn P(X,) es una mixtura de gaussianas, esto es, una 
suma ponderada de gaussianas taies que la suma de los pesos es 1. 

b) Demuestre que si la estimacion de estados continuos actual P(X,|e l f ) es una mix¬ 
tura de m gaussianas, enfonces en el caso general la estimacion de estados ac- 
tualizada P(X, + 1 |e 1(+1 ) sera una mixtura de km gaussianas. 

c ) <;Qué aspectos del proceso temporal representan los pesos en la mixtura gaus¬ 
siana? 

15.6 Complété el paso que falta en la deducciôn de la Ecuaciôn (15.17), el primer paso 
de actualizaciôn para el filtro de Kalman unidimensional. 

15.7 Examinemos el comportamiento de la actualizaciôn de la varianza de la Ecuaciôn 
(15.18). 

a) Dibuje el valor de of como una funcion de t, dados varios valores para cr 2 x y al. 
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Figura 15.22 Una représentation de red bayesiana de un filtro de Kalman de conmutacion. La va¬ 
riable de conmutacion S , es una variable de estado discreto cuyo valor détermina el modelo de tran- 
siciôn para las variables de estado continuas X t . Para cualquier estado discreto i, el modelo de 
transiciôn P(X (+1 [X,, S , = /) es un modelo gaussiano lineal, al igual que en el filtro de Kalman ha¬ 
bituai. El modelo de transiciôn para el estado discreto, PU^S,), puede pensarse como una matriz, 
como en un modelo oculto de Markov. 


b) Demuestre que la actualizacion tiene un punto fijo a 2 tal que a 2 —* a 2 cuando 
t —* °°, y calcule el valor de cr 2 . 

c ) Dé una explicaciôn cualitativa para lo que ocurre cuando cr 2 x —> 0 y cuando 

15.8 Demuestre como representar un MOM como un modelo probabilista relacional 
recursivo, como se sugirio en el Apartado 14.6. 

15.9 En este ejercicio, analizamos con mas detalle el modelo de fallo persistente para 
el sensor de la bateria de la Figura 15.13(a). 

a) La Figura 15.13(b) para en t = 32. Describa cualitativamente qué deberia ocu- 
rrir cuando t —> °° si el sensor continüa hasta leer 0. 

b) Suponga que la temperatura externa afecta al sensor de la bateria de tal modo 
que los fallos transitorios llegan a ser mas creibles que el incremento de la tem¬ 
peratura. Muestre como aumentar la estructura de la RBD de la Figura 15.13(a), 
y explique cualquier cambio necesario en las TPCs. 

c) Dada la nueva estructura de la red, ^pueden las lecturas de la bateria ser utili- 
zadas por el robot para inferir la temperatura actual? 

15.10 Considéré la aplicacion del algoritmo de eliminacion de variables para la 
RBD desenrollada del paraguas para très cortes, donde la pregunta es P(/? 3 |C/ I , U 2 , f/ 3 ). 
Muestre que la complejidad del algoritmo (el tamano del factor mas grande) es la mis- 
ma, independientemente de si las variables de la lluvia se eliminan hacia delante o ha- 
cia atrâs. 

15.11 El modelo de «tomato» de la Figura 15.19 permite una coarticulacion sobre la 
primera vocal dando dos posibles fonemas. Un enfoque altemativo es usar el modelo tri- 
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fonema en el que el fonema [ow(t,m)] incluye automâticamente el cambio en el sonido 
de la vocal. Trace un modelo trifonema completo para «tomato», incluyendo la varia¬ 
tion dialéctica. 

15.12 Calcule el camino mas probable dentro del MOM de la Figura 15.20 para la se- 
cuencia de salida [C,, C 2 , C 3 , C 4 , C 5 , C 6 , C 7 ]. Dé también la probabilidad. 



Toma de decisiones 
sencillas 


Donde se verâ cômo debe tomar decisiones un agente para obtener 
lo que desea, por lo menos, en promedio. 


En este capitulo se retoma la teoria de la utilidad introducida en el Capitulo 13 y se mues- 
tra cômo combinarla con la teoria de la probabilidad, para construir un agente basado 
en la teoria de la decision: aquél capaz de tomar decisiones racionales basândose en lo 
que créé y desea. Esta clase de agentes puede adoptar decisiones en situaciones en las 
que un agente lôgico no tiene forma de decidir debido a la presencia de incertidumbre 
y objetivos contradictorios. En efecto, un agente basado en objetivos maneja una di- 
cotomia entre estados buenos (objetivo) y malos (no objetivo), mientras que un agen¬ 
te basado en la teoria de la decision maneja una medida cuantitativa de la calidad de 
los estados. 

En la Secciôn 16.1 se présenta el principio bâsico de la teoria de la decision: la ma- 
ximizaciôn de la utilidad esperada. En la Secciôn 16.2 se muestra que el comportamiento 
de cualquier agente racional puede modelarse con una funciôn de utilidad que debe ma- 
ximizarse. La Secciôn 16.3 trata, mas en detalle, sobre la naturaleza de las funciones 
de utilidad y, en particular, su relaciôn con magnitudes cuantitativas individuales, ta¬ 
ies como el dinero. En la Secciôn 16.4 se muestra cômo manejar las funciones de uti¬ 
lidad que dependen de varias magnitudes cuantitativas. En la Secciôn 16.5 se explica 
cômo implantar sistemas para la toma de decisiones. En particular, se présenta un for- 
malismo denominado redes de decision (también conocido como diagramas de in- 
fluencia) que amplia la semântica de las redes Bayesianas mediante la incorporaciôn 
de acciones y utilidades. El resto del capitulo recoge aspectos diversos que surgen al 
aplicar la teoria de la decision a los sistemas expertos. 
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16.1 Combinacion de creencias y deseos bajo 
condiciones de incertidumbre 


En la obra Port-Royal Logic, escrita en 1662, el filosofo francés Arnauld afirmaba que: 

Para juzgar lo que hay que hacer para alcanzar un bien o para evitar un mal, hace falta consi- 
derar no solo al bien y al mal en si, sino también la probabilidad de que sucedan o no y, re- 
presentar geométricamente la proporcion que todos estos factores presentan en conjunto. 


Si bien los textos actuales que tratan sobre la teorfa de la decision no hacen referencia 
al bien o al mal sino al término utilidad, el principio es exactamente el mismo que el ex- 
presado por la cita referida. Las preferencias de un agente respecta a ciertos estados del 
mundo se sustentan mediante una funciôn de utilidad, que asigna una cantidad numé- 
rica para expresar lo deseable que es un estado. Esta medida de la utilidad, combinada 
con la probabilidad de ocurrencia de las acciones, da como resultado la utilidad espera- 
da para cada accion. 

Se utilizarâ la notacion U(S) para denotar la utilidad del estado S, segün considéré 
el agente que toma las decisiones. Por ahora, se considerarâ a los estados como instan- 
tâneas complétas del mundo, semejantes a las situaciones del Capitulo 10. Aunque esta 
consideracion simplificarâ las explicaciones iniciales, con el tiempo sera complicado es- 
pecificar la utilidad de cada uno de los estados posibles por separado. En la Secciôn 16.4, 
se mostrarâ como, bajo determinadas circunstancias, los estados pueden descomponer- 
se con el fin de asignar utilidades. 

Los posibles estados résultantes de una accion no determinista A se denotarân por 
la notacion Resultado [A), donde el indice i recorre el rango de posibles resultados. Pre- 
viamente a la realizacion de la accion A, el agente asigna una probabilidad P(Resul- 
tadOi(A)\Realizar(A), E) a cada resultado, donde el factor E engloba la evidencia 
disponible por el agente sobre el mundo y Realizar{A) se refiere a la proposicion con- 
sistente en ejecutar la accion A en el estado actual. Puede calcularse entonces la uti- 
utilidad esperada lidad esperada de la accion A dada la evidencia E, denotada por UE{A\E), mediante 
la siguiente expresion: 

EU(A\E) = X P( Resultado ) | R ealizar(A ), E) U (Resultado [A ) ) (16.1) 

i 

kperada TIUDAD El principio de la mâxima utilidad esperada (MUE) establece que un agente racional 
debe elegir aquella accion que maximice la utilidad esperada del agente. Si se quiere ele- 
gir la mejor secuencia de acciones empleando esta ecuacion, se tienen que enumerar to- 
das las secuencias de acciones posibles y elegir la mejor. Claramente, esto es intratable 
en el caso de secuencias extensas. Por lo tanto, este capitulo se centrarâ en decisiones 
simples (compuestas por una ünica accion) y sera en el siguiente capitulo donde se tra- 
ten las técnicas para manejar eficientemente secuencias de acciones. 

En cierto sentido, puede considerarse el principio de MUE como definitorio de la 
IA. Todo lo que tiene que hacer un agente inteligente es calcular varias medidas, maxi- 
mizar la utilidad de sus acciones e ir hacia delante. Pero esto no quiere decir que el pro- 
blema de la IA se resuelva por la definicion. 
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Aunque el principio de MUE permite establecer la acciôn correcta a realizar en cual- 
quier problema de decision, el coste computacional asociado puede ser prohibitivo y, ade- 
mâs, en algunos casos es dificil formular completamente el problema a resolver. El 
conocimiento del estado inicial del mundo requiere capacidades de percepciôn, apren- 
dizaje, representaciôn del conocimiento e inferencia. El câlculo de ia probabilidad P(Re- 
sultadofA ) I Realizar{A), E) requiere la disponibilidad de un modelo causal completo 
del mundo y, tal y como se vio en el Capitulo 14, la inferencia en redes Bayesianas es 
un problema NP-completo. El câlculo de la utilidad de cada estado, UiResultado^A )), 
a menudo implica la realizaciôn de una büsqueda o planificaciôn ya que un agente no 
sabe lo bueno que es un estado hasta que no conoce cômo llegar a dicho estado. Por lo 
tanto, la teorfa de la decision no es la panacea que resuelve el problema de la IA. Como 
contrapartida, proporciona un marco formai dentro del cual tienen cabida todos los 
componentes de un sistema de IA. 

El principio de MUE tiene una clara relaciôn con la idea de la medida de desempe- 
no introducida en el Capitulo 2. La idea bâsica es muy sencilla. Considérense los dife- 
rentes entornos que pueden condicionar a un agente a disponer de una historia de 
percepciones dada y los diferentes agentes que podrian disenarse. Si un agente maximi- 
za unafunciôn de utilidad que, déforma adecuada, refleja la medida de desempeno me- 
diante la cual debe juzgarse su comportamiento, entonces se lograrâ la mâs elevada 
puntuaciôn posible en cuanto a desempeno, si promediamos la funciôn de utilidad so¬ 
bre todos los entornos en los que puede ejecutarse el agente. Esta es la justificacion fon¬ 
damental del principio de MUE en si mismo. Mientras esta aseveraciôn puede parecer 
una tautologia, expresa una idea muy importante relativa a la traslaciôn de un criterio 
de racionalidad externo y global (como es el de la medida de desempeno sobre una base 
de hechos) a un criterio local e interno que involucra la maximizaciôn de una funciôn 
de utilidad, cuando se aplica a la determinaciôn del estado siguiente. 

Este capitulo, solo se referirâ a las decisiones unitarias o sencillas, mientras que el 
Capitulo 2 definia las medidas de desempeno con base en un histôrico de hechos sobre 
el entorno, que usualmente implica mültiples decisiones. En el capitulo siguiente, se tra- 
tarâ el caso de decisiones secuenciales y se verâ cômo pueden conciliarse las dos pers- 
pectivas. 


16.2 Los fundamentos de la teoria de la utilidad 


Intuitivamente, el principio de Mâxima Utilidad Esperada (MEU) aparenta ser una for¬ 
ma razonable para tomar decisiones, pero obviamente no es la ûnica via razonable de 
hacerlo. Después de todo, / ; por qué deberia ser tan especial maximizar la utilidad mé¬ 
dial /Por qué no maximizar la suma de los cubos de todas las posibles utilidades o tra- 
tar de minimizar las peores pérdidas de utilidad posibles? También, /no podrfa actuar 
racionalmente un agente sin mâs que expresar sus preferencias acerca de los diferentes 
estados, sin necesidad de asignarles un valor numérico? Quizâs, un agente racional pue¬ 
de tener una estructura de preferencias demasiado compleja como para ser representa- 
da por un ünico numéro real asociado a cada estado. 
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LOTERIA 


ORDENACION 


Restricciones sobre preferencias racionales 

Las cuestiones anteriores pueden responderse mediante la escritura de ciertas restricciones 
sobre las preferencias que un agente racional deberia tener y demostrando que el prin- 
cipio de MUE puede derivarse a partir de estas restricciones. Se usarâ la siguiente no- 
taciôn para explicitar las preferencias de un agente: 

A > B Se prefiere a A sobre B. 

A ~ B El agente es indiferente a la hora de escoger entre A y B. 

A B El agente prefiere a A sobre B, o ambos le son indiferentes. 

Ahora la cuestiôn obvia es, /,qué clase de cosas son A y B ? Si las acciones del agente son 
deterministas, A y B serân los estados concretos y completamente especificados, résul¬ 
tantes de taies acciones. En el caso mas general, es decir, el caso no determinista, Ay B 
son lo mas parecido a una loteria, en el sentido de que représenta un proceso aleatorio 
en el que ocurrirâ uno de entre varios resultados posibles: C v C n , y en los que la ocu- 
rrencia de cada resultado vendra determinado por las probabilidades asociadas a los po¬ 
sibles resultados: p v ..., p n , respectivamente. Asi pues, un experimento aleatorio (loteria) 
L puede representarse mediante una distribuciôn de probabilidad dada por la expresiôn: 

L = [p v C{,p 2 , C 2 ; ...,p n , CJ 

(Una loteria con un ünico resultado podria escribirse como A o mediante el suceso se- 
guro [ 1, A].) En general, cada resultado de una loteria puede ser un estado atômico u otra 
loteria. El reto principal para la teoria de la utilidad es comprender como estân relacio- 
nadas las preferencias entre loterias complejas con las preferencias entre los estados im- 
plicitamente asociados a taies loterias. 

Para realizar esto, se imponen una sérié de restricciones razonables sobre la relaciôn 
de preferencia, de la misma forma que en el Capitulo 13 se impusieron restricciones a los 
grados de creencia para obtener los axiomas de la teoria de la probabilidad. Una restric- 
ciôn razonable séria que la relaciôn de preferencia deberia ser transitiva, es decir, si 
A > B y B > C, entonces se esperarfa que A > C. El argumenta para defender la condi- 
ciôn de transitividad es que un agente que no respetase la transitividad en sus preferencias 
se comportaria de modo irracional. Supôngase, por ejemplo, que el agente tiene las pre¬ 
ferencias no transitivas A > B > C > A, donde A, B y C representan bienes que pueden 
ser libremente intercambiados. Si el agente tiene en este momento el bien A, se le puede 
ofertar C y pedirle cierta cantidad de dinero por A. Dado que el agente prefiere tener el 
bien C, de buena gana podria darnos cierta cantidad de dinero para realizar este intercam- 
bio. De la misma forma, se le podria ofertar B por C, consiguiendo mas dinero, y final- 
mente venderle A por B. De esta forma, se volveria al estado inicial, si bien ahora el agente 
dispone de menos dinero (Figura 16.1 (a)). Ademâs, podria reiterarse este ciclo hasta de- 
jar al agente sin dinero. Claramente en este caso, el agente no actüa de forma racional. 

Las seis restricciones siguientes se conocen como los axiomas de la teoria de la uti¬ 
lidad. Especifican las restricciones semânticas mas obvias sobre las relaciones de pre¬ 
ferencia y las loterias. 

• Ordenaciôn: dados dos estados cualesquiera, un agente racional debe ser capaz 
de, o bien preferir uno de ellos, o bien establecer ambos igualmente preferibles. 
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CONTINUIDAD 


SUSTITUCION 


MONOTONICIDAD 



Es decir, el agente no puede evitar tomar una decision. Como se comentô en el 
Apartado 13.3, negarse a apostar es como negarse a que el tiempo pase. 

(A > B) v (B > A) v (A ~ B) 

• Transitividad: dados très estados cualesquiera, si un agente prefiere A frente a B 
y a B sobre C, enfonces el agente debe preferir A sobre C. 

(A > B) a (B > C) => (A > C) 

• Continuidad: si existe algün estado B entre A y C en la relacion de preferencia, 
entonces existe un valor de probabilidad p para el que al agente racional le es in- 
diferente entre considerar como seguro el estado S y la loteria que establece el es¬ 
tado A con probabilidad p y al estado C con probabilidad 1 — p. 

A > B > C => 3p [p, A; 1 - p, C] ~ B 

• Sustituciôn: si un agente es indiferente entre dos loterias, A y B, entonces el 
agente es indiferente entre dos loterias mas complejas en las que aparecen A y B, 
pero en una de ellas se sustituye B por A. Esto es asi, sin importar las probabili- 
dades involucradas, ni el resto de resultados posibles en las loterias. 

A ~ B => [p. A; 1 — p, C] ~ [p, B; 1 - p, C] 

• Monotonicidad: supongase que existen dos loterias que tienen dos resultados po¬ 
sibles e iguales, A y B. Si un agente prefiere a A frente a B, entonces el agente debe 
preferir la loteria que présenta una mayor probabilidad para A (y viceversa). 

A > B => ( p > q <=> [p, A; 1 - p, B] > [q, A; 1 - q, B]) 
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descomposiciôn • Descomposiciôn: las loterias compuestas pueden reducirse a una forma mas sim¬ 

ple empleando las propiedades de la teoria de la probabilidad. A este axioma se 
le conoce como la régla de «no diversion en el juego» ya que establece que dos 
loterias consecutivas se pueden reducir en una ünica loteria équivalente, tal y 
como se muestra en la Figura 16.1 (b) 1 . 

[p, A ; 1 - p, [q, B\\ — q, C]] ~ [p. A; (1 - p)q, B; (1 - p){ 1 - <?); C] 

... y entonces apareciô la utilidad 

Conviene hacer notar que los axiomas de la teoria de la utilidad no dicen nada acerca de 
la utilidad, simplemente se refieren a las relaciones de preferencia. La preferencia se asu- 
me que es una propiedad bâsica de los agentes racionales. La existencia de una funcion 
de utilidad se dériva de los axiomas de utilidad: 

1. Principio de utilidad 

Si las preferencias de un agente obedecen a los axiomas de utilidad entonces exis¬ 
te una funcion real U asociada a cada estado de forma que se tiene que U (A) > 
U(B) si, y solo si, se prefiere A frente a B, y U(A) = U(B) si, y solo si, el agen¬ 
te se muestra indiferente ante A o B. 

U(A) > U(B) <r$A> B 
U(A) = U(B) 

2. Principio de niâxima utilidad esperada 

La utilidad de una loteria es la suma de la probabilidad de cada resultado mul- 
tiplicada por la utilidad de cada resultado. 

U{\p v s { ,..-p n , SJ] = Z Pl U(S) 

i 

En otras palabras, una vez que las probabilidades de ocurrencia y la utilidad de cada po- 
sible estado résultante estân especificadas, la utilidad de la loteria que implica a taies es- 
tados queda determinada completamente. Dado que el resultado de una accion no 
determinista viene expresado por una loteria, esta expresion nos da la régla de decision 
basada en el principio de MUE indicada en la Ecuacion (16.1). 

Es importante recordar que la existencia de una funcion que describe las preferen¬ 
cias en el comportamiento de un agente no significa, necesariamente, que el agente ma- 
ximice explicitamente esta funcion de utilidad en sus propias deliberaciones. Tal y como 
se mostro en el Capitulo 2, el comportamiento racional puede generarse de multiples for¬ 
mas, alguna de las cuales son mas eficientes que la maximizaciôn explicita de la utili¬ 
dad. Sin embargo, mediante la observaciôn de las preferencias de un agente racional, es 
posible construir una funcion de utilidad que représente cuales son los objetivos que, ac- 
tualmente, persiguen las acciones del agente. 


1 Puede evaluarse la satisfaccion de jugar mediante la codificacion de los sucesos del juego en los estados 
de la descripciôn, por ejemplo, «Tener 10 dôlares y haber apostado» puede ser preferible a «Tener 10 dola- 
res y no haber apostado». 




TOMA DE DECISIONES SENC1LLAS 669 


16.3 Funciones de utilidad 


La utilidad es una funciôn que establece una correspondencia entre los estados y el con- 
junto de los nümeros reales. / ; Es esto todo lo que se puede decir sobre las funciones de 
utilidad? Hablando en sentido estricto, asi es. Mas alla de las restricciones enumeradas 
con anterioridad, un agente puede tener tantas preferencias como quiera. Por ejemplo, 
un agente puede preferir tener un nümero primo de dôlares en su cuenta bancaria; en este 
caso, si él tuviera 16 dôlares podria gastarse très dôlares. También podrfa preferir el mo- 
delo antiguo de Escarabajo de Volskwagen frente a un Mercedes ültimo modelo. Ade- 
mâs, las preferencias pueden interactuar: por ejemplo, el agente puede preferir solo tener 
un nümero primo de dôlares cuando tiene un Escarabajo y preferir tener mas dinero cuan- 
to tiene el Mercedes. 

Si todas las funciones de utilidad fueran tan arbitrarias como las comentadas entonces 
la teoria de la utilidad no séria de mucha ayuda, ya que se tendrian que observar las prefe¬ 
rencias del agente en cada una de las posibles combinaciones de circunstancias, antes de 
ser capaces de hacer cualquier predicciôn sobre su comportamiento. Afortunadamente, las 
preferencias de los agentes reales son, por lo general, mas sistemâticas. Reciprocamente, 
existen formas sistemâticas de définir funciones de utilidad que, una vez implementadas 
en un agente artificial, pueden generar los tipos de comportamiento que se desean. 


La utilidad del dinero 


PREFERENCIA 

MONÔTONA 


VALOR MONETARIO 
ESPERADO 


La teoria de la utilidad tiene sus raices en la economia y la economia proporciona un can¬ 
didate) évidente para una medida de la utilidad: el dinero (mas especificamente, el total de 
activos netos de un agente). La casi total aceptaciôn del dinero como medio universal para 
intercambiar toda clase de bienes y servicios sugiere que el dinero représenta un papel sig¬ 
nificative en las funciones de utilidad humanas. (De hecho, mucha gente piensa que la eco¬ 
nomia es el estudio del dinero, mientras que los especialistas en economia se refieren mas 
a la gestion, sobre todo, en lo que se refiere a las altemativas de inversion del dinero.) 

Si se centra la atenciôn a las acciones que exclusivamente afectan a la cantidad de 
dinero que tiene un agente, se pone de manifiesto que, por lo general, lo que el agente 
prefiere es tener mas dinero, manteniendo igual el resto de recursos que posea. Se dice 
pues, que el agente présenta una preferencia monôtona (siempre creciente) por el di¬ 
nero. Sin embargo, esta condiciôn no es suficiente para garantizar que el dinero se com¬ 
porta como una funciôn de utilidad ya que no se dice nada acerca de las preferencias sobre 
loterîas que se refieren al dinero. 

Suponga que es el ganador de un concurso de télévision y que el presentador le plan- 
tea una elecciôn: o bien acepta directamente un premio de un millôn de dôlares o bien 
se juega el premio a cara o cruz, de forma que si sale cara, lo pierde todo, y si sale cruz, 
gana très millones de dôlares. Probablemente, como lo haria mucha mas gente, usted 
desestimaria jugârsela a cara o cruz y querria decir esto que usted es irracional. 

Suponiendo que usted confia en que la moneda no esta trucada, el valor monetario 
esperado (VME) de la apuesta planteada es j (0 $) + j (3.000.000 $) = 1.500.000 $, 
mientras que el valor VME en caso de aceptar el dinero directamente es de 1.000.000 de 
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dolares, que es menor. Pero fijarse en este criterio no implica que aceptar la apuesta sea 
la mejor opciôn posible. Suponga que por S n , se dénota la situacion en que la cantidad de 
dinero total que dispone es de n dolares, y que actualmente usted tiene k dolares. Enton- 
ces las funciones de utilidad esperadas para cada posible elecciôn en la apuesta son 

EU G Aceptar ) - ± U(S k ) + ±U(S k + 3 . 000 . 000 ), 

EU ( Rechazar ) = U (S k + 1000000 ) 

Por lo tanto para decidir qué hacer, se necesita asignar valores de utilidad a los estados 
résultantes. La utilidad no es directamente proporcional al valor monetario ya que se- 
guramente para usted la utilidad (una mejora en su nivel adquisitivo) del primer millôn 
es mucho mayor que la utilidad de los millones adicionales. Suponga que asigna un va¬ 
lor de utilidad de 5 a su estado financiero actual (S k ), de 10 al estado S k + 3000000 y de 8 
al estado S k+ 1 000000 . Bajo estas condiciones, la decision mas razonable es rechazar la 
apuesta ya que la utilidad esperada, si se acepta, es de tan solo 7,5 (menor que 8, el va¬ 
lor asociado a la decision de no aceptar la apuesta). Suponga ahora que usted tiene 500 
millones de dolares en su cuenta bancaria (y que se présenté al concurso simplemente 
para divertirse). En este caso, la apuesta sera probablemente aceptable, ya que el bene- 
ficio adicional de tener 503 millones a tener 501 millones séria prâcticamente similar. 

En un estudio pionero sobre las funciones de utilidad actuales, Grayson (1960) en¬ 
contre que la utilidad del dinero era casi exactamente proporcional al logaritmo de la 
cantidad de dinero; esta idea ya fue sugerida por Bernoulli (1738); (véase el Ejercicio 
16.3). La Figura 16.2(a) muestra la curva de Beard que modela las preferencias esta- 
blecidas por este autor y que resultan consistentes con la funcion de utilidad 

U(S k + n ) = -263,31 + 22,09 log(n + 150.000) 

cuando n varia entre los valores de 150.000 dolares y 800.000 dolares. 

No se deberia contemplar aün a esta expresion como la funcion de utilidad definiti- 
va para el valor monetario, pero es muy probable que para la mayorfa de la gente la fun¬ 
cion de utilidad sea concava para valores positivos de la riqueza. Aunque endeudarse en 
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exceso se puede considerar algo desastroso, las preferencias entre los diferentes niveles 
de endeudamiento pueden presentar un comportamiento invertido, en cuanto a la con- 
cavidad de la funcion de utilidad, es decir, tener una forma convexa. Por ejemplo, alguien 
que ya tenga una deuda de 10 millones de dôlares puede asumir jugârsela a cara o cruz 
si tiene posibilidad de ganar 10 millones si sale cara, o bien, pasar a perder 20 millones 
si sale cruz 2 . Este comportamiento puede representarse por una curva sigmoidal similar 
a la representada en la Figura 16.2(b). 

Si se centra la atenciôn al dominio positivo de la curva, donde la pendiente va decre- 
ciendo, entonces se tiene que, para cualquier loteria L, la utilidad de aceptar el reto es me- 
nor que la utilidad de recibir el valor monetario esperado de la loteria como algo seguro: 

U(L) < U(S VME(L} ) 

Es decir, los agentes que manejen una curva con esta forma sufrirân miedo al riesgo: 
ellos preferirân algo seguro, aunque tenga una retribuciôn menor que el valor moneta¬ 
rio esperado del reto. Por otro lado, en la région de desesperaciôn o de valores muy ne- 
gativos en la Figura 16.2(b), el comportamiento se caracteriza por buscar el riesgo. El 
valor que el agente estaria dispuesto a aceptar en lugar del resultado de la apuesta se co¬ 
noce como équivalente de certeza o seguridad de la loteria. Algunos estudios han mos- 
trado que la mayoria de la gente aceptaria unos 400 dôlares en vez de jugârselo a una 
apuesta que le reportara 1.000 dôlares la mitad de las veces y nada la otra mitad (es de¬ 
cir, el équivalente de certeza de la apuesta séria en este caso de 400 dôlares). La dife- 
rencia entre el valor monetario esperado de la apuesta y su équivalente de certeza se 
conoce como prima del seguro. La aversion al riesgo es la base de la industria asegu- 
radora ya que las primas de los seguros son siempre positivas. La gente prefiere pagar 
una pequena prima de un seguro que arriesgar todo el valor de su vivienda en caso de 
incendio. Desde el punto de vista de la compania aseguradora, el precio de la vivienda 
asegurada es muy pequeno en relaciôn con sus activos totales. Esto se traduce en que la 
curva de utilidad del asegurador es prâcticamente lineal en esta zona de valores peque- 
nos y el riesgo asumido por la compania es casi nulo. 

Conviene hacer notar que para pequenos cambios en la riqueza esperada frente a la 
actual, prâcticamente cualquier curva se comporta linealmente. Un agente que tenga una 
curva lineal se dice que es neutral al riesgo. Para decisiones con un beneficio pequeno 
es de esperar adoptar una posiciôn de neutralidad. En este sentido se justifica el proce- 
dimiento simplificado que proponia el empleo de pequenas apuestas para evaluar pro- 
babilidades y para justificar los axiomas de la probabilidad en el Capitulo 13. 

Escalas de utilidad y evaluaciôn de la utilidad 

Los axiomas de la teoria de la utilidad no especifican una ünica funcion de utilidad para 
un agente, conocidas sus preferencias. Por ejemplo, puede transformarse una funcion de 
utilidad U(S) en otra como 

U'(S) = k x + k 2 U(S ) 


2 Este comportamiento puede decirse que es desesperado, pero puede ser racional si uno se encuentra en una 
situacion desesperada. 
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El Juicio Humano y la Falibilidad 

La teoria de la decision es una teoria normativa: describe cômo deberîa actuar un agente racional. 
Se mejoraria muchisimo en la aplicacion de la teoria econômica si ademâs, la teoria de la decision 
fuera descriptiva, es decir, reflejase cômo los seres humanos toman decisiones. Sin embargo, se tie- 
ne una indiscutible evidencia experimental que indica que la gente, sistemâticamente, viola los 
axiomas de la teoria de la utilidad. Los psicologos Tverky y Kanheman (1982) proporcionan un cla- 
ro ejemplo en este sentido que se basa en una situaciôn planteada por el economista Allais (1953). 
A los participantes en el experimento se les planteo elegir entre las apuestas A y B y entre las apues- 
tas C y D: 

A: 80% probabilidad de ganar 4.000 $ C: 20% probabilidad de ganar 4.000 $ 

B: 100% probabilidad de ganar 3.000 $ D\ 25% probabilidad de ganar 3.000 $ 

La mayoria de los participantes prefiri<6 la apuesta B frente a la A, y la C frente a la D. Si se consi¬ 
déra que U (0 $) = 0, en la primera eleccion planteada se tiene que 0,817(4.000 $) < 1/(3.000 $), en tan- 
to que en la segunda eleccion ocurre lo contrario. Es decir, parece como si no existiese una funcion de 
utilidad que fuera consistente con las dos elecciones. Una posible conclusion séria decir, simplemen- 
te, que los seres humanos se comportan irracionalmente a juzgar por las normas de nuestros axiomas 
sobre la utilidad. Un punto de vista alternative séria considerar que en el anâlisis realizado no se tuvo 
en cuenta el arrepentimiento (el sentimiento que un hombre sentiria cuando, sabiendo que cambia una 
recompensa segura (B) por otra que tiene un 80 por ciento de posibilidades de ocurrir, résulta que pier- 
de). Es decir, si se elige la apuesta A, se tiene una probabilidad de un 20 por ciento de no conseguir 
nada y sentirse como un completo idiota. 

Kahneman y Tversky continuaron con la idea de desarrollar una teoria descriptiva que explique como 
la gente huye del riesgo ante sucesos de una alta probabilidad de ocurrencia, pero estân dispuestos a 
asumir mayores riesgos frente a situaciones poco probables. La relacion entre este hecho évidente y la 
IA es que las decisiones que los agentes pueden adoptar son solo tan buenas como las preferencias en 
las que estân basadas. Si los informadores humanos insisten en juicios de preferencia contradictorios, 
no hay nada que un agente pueda hacer que sea consistente con ellos. 

Afortunadamente, los juicios de preferencia hechos por los hombres estân sujetos, a menudo, a re- 
visiones a la vista de nuevas consideraciones. En uno de los primeras trabajos sobre la evaluacion de 
la utilidad del dinero en la Harvard Business School, Keeney y Raiffa (1976, pâgina 210) afirmaban 
lo siguiente: 

Muchas de las investigaciones empiricas han demostrado que hay sérias deficiencias en el protocolo de valo- 
racion. Los sujetos tienden a tener demasiada aversion al riesgo en las situaciones pequenas y consecuente- 
mente... la funciones de utilidad presentan indebidamente grandes primas de riesgo para apuestas con una gran 
variabilidad... Sin embargo, la mayoria de los sujetos decisorios pueden reconciliar sus inconsistencias y sen¬ 
tir que han aprendido una lecciôn importante acerca de como quieren comportarse. Como consecuencia, al- 
gunas personas deciden no renovar su seguro del automovil a todo riesgo y deciden ampliar las primas de sus 
seguros de vida. 

Incluso hoy en dia, la racionalidad (irracionalidad) humana es objeto de una exhaustiva investiga- 
cion. 
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MICROMORTAUDAD 
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donde k l es una constante y k 2 es cualquier constante positiva. Claramente, esta trans- 
formaciôn lineal mantiene el comportamiento del agente inalterado. 

En contextos deterministas, donde solo es posible un ünico estado resultado y no va- 
rios, cualquier transformaciôn monôtona conserva el comportamiento inicial. Por ejem- 
plo, puede calcularse la raiz cübica de todas los valores de utilidad, sin que ello suponga 
un cambio en la ordenaciôn de las preferencias. Se dice que un agente que se desenvuelve 
en un entorno determinista tiene una funciôn de utilidad ordinal o funciôn de valor; 
la funciôn, mas que aportar un valor numérico con un cierto significado, realmente pro- 
porciona una ordenaciôn de los estados. Ya se vio esta distinciôn en el Capitulo 6 ha- 
blando de los juegos: las funciones de evaluaciôn en juegos deterministas, como el 
ajedrez, son funciones de valor, mientras que las funciones de evaluaciôn en juegos no 
deterministas como el backgammon son, verdaderamente, funciones de utilidad. 

Un procedimiento para valorar utilidades es establecer una escala que détermine el 
«mejor premio posible» en el punto que se cumpla U (S) = Sup(w), es decir, el valor ma- 
yor de u, y la «peor catâstrofe posible» en U (S) — Inf(m). Los valores de utilidad nor- 
malizados emplean la escala en la cual Inf(m) = 0 y Sup(m) = 1 . Los valores de utilidad 
de resultados intermedios se establecen solicitando al agente que indique una preferen- 
cia entre un posible estado résultante S y una loteria estândar [ p, Inf(h); (1 — p), Sup(w)]. 
La probabilidad p se ajusta hasta que el agente se muestre indiferente trente a S y a la lo¬ 
teria estândar. Suponiendo que los valores de utilidad estân normalizados, la utilidad de 
S viene dada por el valor de p. 

En problemas de decision relativos a la medicina, el transporte y el medio ambien- 
te, entre otros, la vida de las personas es lo primero. En taies situaciones, Inf(m) es el 
valor que se asigna a una muerte inmediata (o quizâs a muchas muertes). Aunque a na- 
die le agrada potier un precio a una vida humana, es un hecho que estos balances se re- 
alizan continuamente. Los aviones requieren una révision compléta que viene 
determinada por un cierto numéro de vuelos o de horas de vuelo, en vez de realizarla 
después de cada vuelo. Las carrocerias de los coches se hacen con planchas de métal re- 
lativamente delgadas para reducir costes, aun a costa de disminuir los indices de super- 
vivencia en accidentes. Todavia se utilizan los carburantes con plomo, aun conociendo 
sus riesgos para la salud. Paradôjicamente, una negativa a «invertir en vida» significa 
que la vida es a menudo infravalorada. Ross Shachter relata una experiencia con una agen¬ 
da del gobierno norteamericano que encargô un estudio sobre la eliminaciôn de un ma- 
terial de construcciôn que contiene amianto (asbesto) de las escuelas. El estudio considéré 
un cierto valor monetario para la vida de un nino en edad escolar, y defendia que era una 
opciôn razonable eliminar el asbesto. La agenda del gobierno, indignada, rechazô de in- 
mediato el informe y se fallô en contra de la eliminaciôn del asbesto de las escuelas. 

Ha habido algunos intentos de averiguar el lugar en el que las personas sitüan su pro- 
pia vida. Dos de los criterios comunes, utilizados en el âmbito médico y de la seguri- 
dad, son la micromortalidad (probabilidad de que ocurra una muerte entre un millôn) 
y la designada por las siglas AVAC, o Ano de Vida Ajustado a la Calidad (équivalente 
a un ano con buena salud, sin padecer ninguna enfermedad). Diferentes estudios sobre 
un amplio rango de individuos han mostrado que la micromortalidad esta valorada so¬ 
bre unos 20 dôlares americanos (del ano 1980). Ya se ha visto que las funciones no uti¬ 
lidad no tienen por qué ser lineales, y por lo tanto, esto no implica que un sujeto decisor 
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pueda suicidarse por 20 millones de dôlares. Otra vez, la linealidad local de cualquier 
curva de utilidad significa que tanto la micromortalidad como los valores AVAC son mas 
adecuados en pequenos incrementos del riesgo y de la recompensa. 


16.4 Funciones de utilidad multiatributo 


En el âmbito de la administraciôn püblica, los factores a tener en cuenta en la toma de 
decisiones se refieren tanto a factores economicos como de salud y seguridad de los ciu- 
dadanos. Por ejemplo, cuando los responsables encargados de decidir qué niveles son 
admisibles en un entorno para una determinada sustancia cancerigena, éstos deben va- 
lorar el coste asociado a la prevenciôn de las enfermedades ocasionadas por el agente 
cancerigeno y las pérdidas econômicas que puede acarrear la supresion de determina- 
dos productos o procesos. El emplazamiento de un nuevo aeropuerto requiere considé¬ 
rer el impacto medioambiental que supone su construccion, el coste del suelo, la distancia 
de los centros urbanos, el mido de las operaciones de vuelo, las condiciones de seguri¬ 
dad derivadas de la topografia y climatologfa local, etc. Los problemas de este tipo, ca- 
Rjfl DE racterizados porque las decisiones dependen de dos o mas atributos, se manejan mediante 

la utilidad i a teoria de la utilidad multiatributo. 

MULTIATRIBUTO 

Se empleara la notacion X = a„ ..., X n para denotar a un conjunto de atributos, y el 
vector x = {x v ..., x n ) para denotar una asignacion compléta de valores a atributos. Por 
lo general, se entiende que cada atributo tiene un valor discreto o un valor escalar con- 
tinuo. Para simplificar, se supondrâ que cada atributo se define de tal forma, que un va¬ 
lor mayor para un atributo se corresponde con una mayor utilidad, siempre y cuando se 
consideren igual el resto de atributos. Por ejemplo, si se considéra la AusenciaDeRuido 
como un atributo en el problema del emplazamiento del aeropuerto, enfonces, confor¬ 
me aumenta su valor, mejor sera la solucion. En algunos casos, puede ser necesario di- 
vidir el rango de valores de un atributo de forma que la utilidad crezca monotonamente 
dentro de cada rango. 

A continuacion se examinarâ en primer lugar una sérié de casos en los que las deci¬ 
siones deben adoptarse sin combinar los valores de los atributos en un ünico valor de 
utilidad. Después se verân casos en los que las utilidades de las combinaciones de atri¬ 
butos se pueden expresar claramente. 


Predominio 

Supongase que el emplazamiento .S', del aeropuerto requiere una inversion menor, gé¬ 
néra una menor contaminacion acüstica y es mas segura que el emplazamiento S n . Uno 
no deberfa dudar en rechazar S 2 . Se dice enfonces que hay un predominio estricto de 
Sj sobre S 2 . En general, si una opcion présenta valores mas pequenos para todos los atri¬ 
butos que otra opcion cualquiera, puede descartarse. A menudo, el criterio de predomi¬ 
nio estricto es muy ütil para reducir todas las opciones posibles a las que son realmente 
dignas de consideracion, aunque rare vez se obtenga una ünica opcion. La Figura 16.3(a) 
muestra un ejemplo para el caso de dos atributos. 
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(a) 


(b) 


Figura 16.3 Predominio estricto. (a) Determinista: opcion A esta estrictamente dominada por la 
opcion B pero no por C ni D. (b) Incertidumbre: A esta dominada estrictamente por B pero no por 


C. 


Esto esta muy bien para el caso determinista, donde los valores de los atributos se 
conocen con total certeza. ^Qué pasa en el caso general, donde el resultado de una ac- 
ciôn es incierto? Puede construirse una analogia directa con el criterio de predominio 
estricto donde, a pesar de la incertidumbre, todos los posibles resultados concretos de 
5j dominan estrictamente sobre todos los posibles resultados de S 2 . (Véase Figura 
16.3(b).) Por supuesto, es de esperar que esta condiciôn se cumpla menos veces que en 
el caso determinista. 

Afortunadamente, existe una generalizaciôn mas ütil, denominada predominio es- 
tocâstico, que se da frecuentemente en las situaciones reales. El predominio estocâsti- 
co es mas sencillo de entender en el contexto de un ünico atributo. Supôngase que se 
créé que el coste de emplazar el aeropuerto en la localizaciôn 5, se distribuye unifor- 
memente entre 2.800 y 4.800 millones de dôlares y que el coste de la localizaciôn S 2 se 
distribuye uniformemente entre 3.000 y 5.200 millones de dôlares. La Figura 16.4(a) 
muestra estas distribuciones, donde el coste se représenta con valores negativos. Enfon¬ 
ces, conociendo solo la informaciôn de que la utilidad decrece con el coste, podemos 
decir que 5, domina de forma estocâstica sobre S 2 (es decir, puede descartarse S 2 ). Es 
importante hacer notar que esta conclusion no se dériva de la comparaciôn de los cos- 
tes esperados. Por ejemplo, si se conociese que el coste de S x fue exactamente 3.800 mi¬ 
llones enfonces séria imposible tomar una decision, sin informaciôn adicional sobre la 
utilidad del dinero 3 . 

La relaciôn exacta entre las distribuciones de los atributos, necesarias para esta- 
blecer el predominio estocâstico, se aprecia mejor si se examinan las distribuciones 
de probabilidad acumuladas, tal y como se muestra en la Figura 16.4(b). La distri- 
buciôn de probabilidad acumulada mide la probabilidad de que el coste sea menor o 


3 Puede parecer extrano que tener mâs informaciôn sobre el coste de Sj pueda hacer al agente menos capaz 
para decidir. La paradoja se resuelve si se considéra que la decision adoptada sin conocer el coste exacto es 
mâs improbable que sea la mâs correcta. 
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-6 - 5,5 -5 - 4,5 -4 - 3,5 -3 - 2,5 -2 

Coste negativo 



(a) 


(b) 


Figura 16.4 Predominio estocâstico (a) S 1 domina estocâsticamente a S 2 sobre el coste. (b) Dis- 
tribuciones acumuladas para los costes negativos de S j y S 2 . 


igual a una determinada cantidad, es decir, es el resultado de la integraciôn de la dis¬ 
tribuciôn de probabilidad original. Si la distribuciôn de probabilidad acumulada de S l 
queda siempre a la derecha de la distribuciôn de probabilidad acumulada de S 2 en¬ 
fonces, en términos estocâsticos, el emplazamiento Sj es mas barato que el S 2 . For- 
malmente, si dos acciones A , y A 2 siguen sendas distribuciones de probabilidad p ,(x) 
y p 2 {x) respecto al atributo X, enfonces A 1 domina estocâsticamente sobre A 2 respec- 
to al atributo X si 


Vx 




dx' 



RED PROBIBILISTA 
CJALITATIVA 


La importancia de esta definiciôn, en relaciôn con la elecciôn de las decisiones ôptimas, 
se debe a la siguiente propiedad: si A , domina estocâsticamente a A, enfonces para cual- 
quier funciôn de utilidad monôtonamente no decreciente U(x), la utilidad esperada de 
A , es, al menos, tan grande como la utilidad esperada de A,. Por lo tanto, si una acciôn 
es dominada estocâsticamente por cualquier otra acciôn en todos los atributos enfonces 
puede descartarse. 

El predominio estocâstico puede parecer un concepto demasiado técnico y que qui- 
zâ no pueda evaluarse fâcilmente sin un câlculo intensivo. En realidad, la condiciôn 
de predominio estocâstico puede establecerse fâcilmente en muchos casos. Por ejem- 
plo, supôngase que la construcciôn del aeropuerto dépende de la distancia a los cen¬ 
tras urbanos. El coste en si es incierto, pero conforme aumenta la distancia, mayor es 
el coste. Si la localizaciôn Sj es mâs cercana que la S 2 , enfonces Sj dominarâ a S 2 en 
el coste asociado a la distancia. Aunque no se presentan aqui, existen algoritmos que 
permiten propagar este tipo de informaciôn cualitativa entre las variables de una red 
probabilista cualitativa, permitiendo a un sistema la toma de decisiones racional ba- 
sândose en el criterio de predominio estocâstico, sin necesidad de emplear valores nu- 
méricos. 
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Estructura de preferencia y utilidad multiatributo 

Supongase que se tienen n atributos, cada uno de los cuales tiene d valores posibles 
diferentes. Para especificar por compléta la funcion de utilidad U(x v ..., x n ) se nece- 
sitan d" valores en el peor caso. Ahora, el peor caso se corresponde con la situacion 
en la cual, las preferencias del agente no tienen una compléta regularidad. La teoria 
de la utilidad multiatributo se fundamenta sobre la hipôtesis de que las preferencias 
de los agentes tipicos tienen mucha mas estructura que el caso planteado. La aproxi¬ 
macion bâsica es identificar regularidades en el comportamiento preferencial que se 
esperarfa observar y utilizar lo que se denominan teoremas de representaciôn para 
demostrar que un agente con una estructura de preferencia determinada tiene una fun¬ 
cion de utilidad de la forma 

U(x v =/[/ 1 (x 1 ), 

donde/es, por lo menos asi se espera, una funcion mas sencilla como por ejemplo la 
suma. Véase la similitud con el uso de las redes Bayesianas para descomponer la distri- 
buciôn de probabilidad conjunta de varias variables aleatorias. 

Preferencias sin incertidumbre 

Se comenzarâ con el caso determinista. Conviene recordar que para entornos determi- 
nistas el agente tiene una funcion de valor V{x v ..., xJ y que ahora se trata de represen- 
tar esta funcion de forma concisa. La regularidad bâsica que aparece en las estructuras 
deterministas de preferencia se denomina independencia de preferencia. Dos atribu¬ 
tos X 1 y X 2 son independientes en cuanto a la preferencia de un tercer atributo X v si la 
preferencia entre los resultados no dépende del valor particular x 3 para el atributo X 3 . 

Retomando el ejemplo del aeropuerto, donde se tienen (entre otros atributos) el Rui- 
do, el Coste y la Siniestralidad, alguien puede proponer que el Ruido y el Caste son in¬ 
dependientes en cuanto a la preferencia del atributo Siniestralidad. Por ejemplo, si se 
prefiere una localizacion con un coste de 4.000 millones de dôlares y con una poblacion 
de 20.000 personas bajo el corredor de aproximacion al aeropuerto, frente a una locali¬ 
zacion con un coste de 3.700 millones y una poblacion de 70.000 bajo el corredor de 
aproximacion, cuando el indice de siniestralidad es, en ambos casos, de 0,06 muertes 
por millôn de pasajeros, entonces se mantendrâ esta preferencia cuando el indice de si¬ 
niestralidad sea de 0,13 o de 0,01; y similar independencia se mantendria para preferencias 
entre cualquier otro par de valores para los atributos Ruido y Coste. Aparentemente, los 
atributos Coste y Siniestralidad también son independientes en cuanto a la preferencia 
del atributo Ruido, asi como el Ruido y la Siniestralidad frente al Coste. Se dice que el 
conjunto de atributos {Ruido, Coste, Siniestralidad] présenta una independencia ntu- 
tua de preferencia (IMP). La propiedad IMP viene a decir que si bien cualquier atri¬ 
buto puede ser importante, este hecho no afecta al modo en que alguien valore los 
restantes atributos frente a cada atributo. 

A partir de la nocion de independencia mutua de preferencia y gracias a un notable 
resultado demostrado por el economista Debreu (1960), puede describirse la funcion de 
valor de un agente de un modo muy sencillo: Si los atributos X v .... X n son mutuamen- 
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te independientes en cuanto a la préféré ne ia, entonces el comportamiento preferencial 
del agente puede describirse mediante la maximizaciôn de lafunciôn 

V(x l ,...,x n ) = 'ZV l (x i ), 

i 

donde cadafunciôn de val or V l se refiere exclusivamente al atributo X r Por ejemplo, pue¬ 
de darse por bueno que en el caso del aeropuerto el criterio de decision viene dado por 
la funcion de valor 

V (ruido, coste, siniestralidad ) = —ruido X 10 4 - coste - siniestralidad X 10 12 . 

Una funcion de valor de este tipo se dice que es una funcion de valor aditiva. Las 
funciones aditivas constituyen una forma muy natural de describir la funcion de va¬ 
lor de un agente y son validas en muchas situaciones del mundo real. Incluso cuando 
la propiedad de independencia mutua no se cumple estrictamente, como puede ser para 
el caso de los valores extremos de los atributos, una funcion de valor aditiva puede pro- 
porcionar una buena aproximacion de las preferencias del agente. Esto es especialmente 
cierto cuando las violaciones de la propiedad de independencia mutua se dan en aque- 
llas regiones de los rangos de los atributos que son muy improbables de ocurrir en la 
prâctica. 


Preferencias con incertidumbre 


Cuando en un dominio esta présente la incertidumbre, se necesita tanto contemplar la 
estructura de las relaciones de preferencia entre loterias como entender las propieda- 
des résultantes de las funciones de utilidad. Las herramientas matemâticas para mane- 
jar esta situacion son bastante complicadas, por lo que se presentan los resultados mas 
importantes para tener una idea de lo que puede hacerse en este caso. Para tener una 
vision mas extensa de este campo se remite al lector a consultar el trabajo de Keeney 
y Raiffa (1976). 

La nocion bâsica de independencia de utilidad amplia la nociôn de independencia 
de preferencia para cubrir el caso de las loterias. Un conjunto de atributos X es indé¬ 
pendante en cuanto a la utilidad respecto a un conjunto de atributos Y si las preferen¬ 
cias entre loterias sobre los atributos de X son independientes de los valores particulares 
de los atributos de Y. Un conjunto de atributos cumple la condicion de independencia 
mutua de utilidad (IMU) si cada uno de sus subconjuntos es independiente en cuanto 
a la utilidad con respecto al resto de atributos. Una vez mas, parece razonable considé¬ 
rer que los atributos del ejemplo del aeropuerto cumplen la condicion de independencia 
de utilidad mutua. 

La propiedad IMU implica que el comportamiento del agente se puede describir em- 
pleando una funcion de utilidad multiplicativa (Keeney, 1974). La forma general de 
una funcion multiplicativa se ve mejor si se considéra el caso de très atributos. Para sim- 
plificar la notacion, se emplearâ la notacion U i para designar a (/ (.y): 


U — k i U l + k 2 U 2 + k 3 U 3 + k l k 2 U l U 1 + k^k 3 U 2 U 3 + k 3 k l U 3 U l + k l k 2 k 3 U l U 2 U 3 

Aunque esta forma no parece muy sencilla, solo contiene très funciones de utilidad so¬ 
bre un ünico atributo y très constantes. Por lo general, un problema con n atributos que 
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verifique la propiedad IMU puede modelarse empleando n funciones de utilidad sobre 
un ünico atributo y n constantes. Cada una de estas funciones de utilidad puede desarro- 
llarse sin considerar el resto de atributos, y mediante su combinacion multiplieativa es- 
tarâ garantizada la correcta generacion de las preferencias globales. Para obtener un 
modelo aditivo es necesario contemplar una sérié de hipôtesis adicionales. 


16.5 Redes de decision 


En esta seccion, se examinarâ un mecanismo general cuyo proposito es la toma de de- 
cisiones de forma racional. Aunque en la bibliografia se denomina a menudo a este me¬ 
canismo como diagrama de influencias (Howard y Matheson, 1984), en este texto se 
emplearâ el término redes de decision por considerarlo mas descriptivo. Las redes de 
decision combinan las redes Bayesianas con dos tipos de nodos adicionales para expre- 
sar acciones y utilidades. Se utilizarâ como ejemplo el problema del emplazamiento del 
aeropuerto. 

Representaciôn de un problema de decision mediante 
una red de decision 

En su forma mas general, una red de decision représenta informaciôn sobre el estado 
actual del agente, sus posibles acciones, el estado que resultarâ de la accion del agen¬ 
te y la utilidad del estado résultante. Por lo tanto, este formalismo proporciona una 
forma de implementar agentes basados en utilidad, introducidos por primera vez en 
la Seccion 2.4. La Figura 16.5 muestra una red de decision para el problema del em¬ 
plazamiento del aeropuerto. En ella aparecen los très tipos de nodos que se utilizan en 
una red de este tipo: 

nodos aleatorios • Nodos aleatorios (elipses) representan variables aleatorias y se interpretan igual 

que los nodos de una red Bayesiana. El agente puede tener incertidumbre acerca 
del coste de construccion, la densidad de trâfico aéreo y la posibilidad de plante- 
ar recursos legales. También las variables Siniestralidad, Ruido y Coste total son 
inciertas y cada una de ellas dépende del emplazamiento elegido. Cada nodo ale- 
atorio tiene asociada una distribucion de probabilidad condicionada para cada 
combinacion de valores de sus padres. En las redes de decision, pueden ser padre 
de un nodo aleatorio tanto otro nodo aleatorio como un nodo de decision. Nôtese 
que cada nodo aleatorio del estado actual puede formar parte de una red de Bayes 
mayor, empleada para evaluar los costes de construccion, la densidad de trâfico 
aéreo y la posibilidad de plantear recursos legales. 

nodos de decision • Nodos de decision (rectângulos) representan puntos donde el sujeto decisor tiene 

que elegir una de las acciones posibles. En este caso, la accion de Emplazar puede 
tomar un valor diferente para cada emplazamiento bajo consideracion. La eleccion 
influye sobre el coste, la seguridad y la contaminaciôn acüstica résultante. El Ca- 
pitulo 17 trata con los casos en los que se debe adoptar mas de una decision. 


DIAGRAMA DE 
INFLUENCIAS 

REDES DE DECISION 
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N0D0S DE UTILIDAD 


TABLAS DE 
ACCIÔN-UTILIDAD 



Figura 16.5 Una red de decision sencilla para el problema del emplazamiento del aeropuerto. 


• Nodos de utilidad (rombos) representan las funciones de utilidad del agente 4 . El 
nodo de utilidad tiene como padres a todas aquellas variables descriptivas que in- 
fluyen directamente sobre el valor de utilidad. Asociado con cada nodo de utili¬ 
dad, se tiene una descripciôn de la utilidad del agente como una funciôn de los 
atributos padre. La descripciôn puede ser tanto una representaciôn tabular de la fun¬ 
ciôn como una funciôn parametrizada de tipo aditivo o multiplieativo. 

También en muchos casos se utiliza una forma simplificada. La notaciôn no se modifi- 
ca, pero los nodos aleatorios intermedios, aquellos que describen el estado résultante, 
se omiten. En su lugar, el nodo de utilidad se conecta directamente a los nodos con el 
estado actual y el nodo de decision. En este caso, mas que representar una funciôn de 
utilidad sobre los estados, el nodo de utilidad représenta la utilidad esperada y asocia- 
da a cada acciôn, tal y como se ha definido en la Ecuaciôn (16.1). Por lo tanto, se de- 
nominarân a estas tablas por tablas de acciôn-utilidad. La Figura 16.6 ilustra la 
representaciôn en la forma acciôn-utilidad del problema del aeropuerto. 

Nôtese que, dado que los nodos Ruido, Siniestralidad y Caste que aparecen en la 
Figura 16.5 se refieren a estados futures, nunca se pueden establecer sus valores como 
las variables que aportan evidencia. Por lo tanto, la version simplificada (que omite a 
estos nodos) puede usarse incluso cuando puede emplearse también la forma mas ge¬ 
neral. A pesar de que la forma simplificada contiene menos nodos, la omisiôn de una 
descripciôn explicita del resultado de la decision del emplazamiento se traduce en que 
la red es menos flexible respecta a los cambios en las circunstancias. Por ejemplo, en 
la Figura 16.5, un cambio en los niveles de ruido de los aviones puede reflejarse en la 
red mediante un cambio en las tablas de probabilidad condicionada asociada con el nodo 


4 Estos nodos se denominan a menudo nodos de valor en la bibliografïa. En este texto se prefiere mantener 
la distincion entre funciones de valor y de utilidad puesto que, tal y como ya se ha discutido con anteriori- 
dad, el estado résultante puede representar una loteria. 
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Figura 16.6 Una représentation simplificada del problema del emplazamiento del aeropuerto. Se 
han eliminado los nodos aleatorios correspondientes a los estados résultantes. 


Ruido, mientras que un cambio en el factor de ponderaciôn del factor contaminaciôn 
acüstica en la funciôn de utilidad se puede reflejar mediante un cambio en la tabla de 
utilidad. Por otra parte, en el diagrama accion-utilidad (Figura 16.6) todos los cam- 
bios indicados deben reflejarse por cambios en la tabla de accion-utilidad. Esencial- 
mente, la formulacion accion-utilidad es una version resumida de la formulacion 
original. 

Evaluaciôn en redes de decision 

Las acciones se seleccionan mediante la evaluaciôn de la red de decision para cada po- 
sible combinaciôn de los valores de decision. Una vez fijada la decision, el nodo de de¬ 
cision se comporta exactamente igual que un nodo aleatorio que haya sido configurado 
como una variable que aporta evidencia. El algoritmo para evaluar las redes de decision 
es el siguiente: 

1. Establecer las variables de evidencia para el estado actual. 

2. Para cada valor posible del nodo de decision: 

a) Establecer el nodo de decision a este valor. 

b) Calcular las probabilidades a posteriori de los nodos padre del nodo de 
utilidad, empleando el algoritmo estândar de inferencia probabilista. 

c ) Calcular la utilidad résultante para la acciôn. 

3. Devolver la acciôn con el mayor valor de utilidad. 

Ésta es una extension directa del algoritmo de inferencia empleado en redes Bayesianas 
y puede incorporarse fâcilmente en el diseno de un agente dado por la Figura 13.1. En 
el Capitulo 17 se verâ que la posibilidad de ejecutar varias acciones en secuencia hace 
mucho mas interesante el problema. 
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16.6 El valor de la informacion 



TEORIA DEL VALOR DE 
LA INFORMACION 


En el anâlisis precedente, hemos supuesto que toda la informacion es relevante, o al me- 
nos que se proporciona al agente toda la informacion disponible antes de adoptar su de¬ 
cision. En la prâctica, casi nunca éste es el caso. Uno de los aspectos mas importantes 
en la torna de decisiones es el conocimiento de qué preguntas hacer. Por ejemplo, un 
médico no puede esperar que se le proporcione el resultado de todas las posibles prue- 
bas diagnôsticas e interroga al paciente cuando acude a su consulta por primera vez\ Las 
pruebas, a menudo, son muy costosas y algunas veces incluso peligrosas (tanto por las 
pruebas en si, como por el retraso que introducen). Su importancia dépende de dos fac- 
tores: si el resultado de la prueba podria contribuir signifieativamente a una mejora del 
tratamiento y qué probables son los resultados de las diferentes pruebas. 

Esta secciôn présenta la teoria del valor de la informacion, que capacita a un 
agente para seleccionar qué informacion adquirir. La adquisiciôn de informacion se con- 
sigue mediante acciones de percepciôn, tal y como se describiô en el Capitulo 12. Dado 
que la funciôn de utilidad del agente rara vez se refiere a los contenidos del estado in¬ 
terno del agente, en tanto que el propôsito general de las acciones sensitivas es modifi- 
car el estado interno, debemos evaluar las acciones sensitivas mediante sus efectos sobre 
las consiguientes acciones «reales» del agente. Por lo tanto, la teoria del valor de la in¬ 
formacion implica una forma de toma de decisiones secuenciales. 


Un ejemplo sencillo 

Supongase que una compania petrolera pretende adquirir uno de los n bloques indistin- 
guibles de derechos de perforaciônes oceânicas. Supongase ademâs, que solo uno de los 
bloques contiene un valor petrolifero de C dolares y que el precio de cada bloque es de 
C/n dolares. Si la actitud de la compania hacia el riesgo es neutral entonces sera indife- 
rente ante la decision de comprar o no comprar el bloque. 

Ahora, supongase que un geôlogo ofrece a la compania los resultados de un estudio 
sobre el bloque nümero 3, que indica, de forma definitiva, si en ese bloque hay o no pe¬ 
trôleo. / Cuânto dinero deberia estar dispuesta a pagar la compania por esa informacion? 
La forma de responder a esta pregunta dépende de lo que podria hacer la compania con 
esta informacion: 

• Con una probabilidad l/n, el estudio indicarâ la presencia de petrôleo en el blo¬ 
que 3. En este caso, la compania comprarâ el bloque 3 por C/n dolares y obten- 
drâ un beneficio de C — C/n = (n — 1 )C/n dolares. 

• Con una probabilidad de (n — 1 )/n, el estudio mostrarâ que en el bloque no hay 
petrôleo, en cuyo caso la compania comprarâ un bloque diferente. La probabilidad 
de encontrar petrôleo en uno de los otros bloques pasa de l/n a 1 /(n — 1), por lo 
que la compania puede evaluar el beneficio esperado en C/(n — 1) — C/n = 
C/n(n — 1) dolares. 


5 En Estados Unidos, la ünica pregunta que se hace siempre antes de pasar consulta es si el paciente esta 
asegurado o no. 
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Ahora puede calcularse el beneficio esperado, conocido el resultado del informe, me- 
diante la expresiôn: 


i x («M)Ç + «Mx C 
n n n n(n — 1) 


C/n 


Por lo tanto, la compama deberîa estar dispuesta a pagar al geôlogo hasta C/n dôlares 
por la informaciôn: la informaciôn vale tanto como el bloque mismo. 

El valor de la informaciôn se dériva del hecho de que cou la informaciôn, el curso 
de la acciôn puede modificarse para adaptarse a la situaciôn actual. Por lo tanto, se pue¬ 
de discriminar de acuerdo a la situaciôn, mientras que sin informaciôn, uno tiene que 
ver cuâl es la mejor opciôn mediante el promedio sobre todas las posibles situaciones. 
En general, el valor de una informaciôn particular dada, se define como la diferencia en¬ 
tre el valor esperado de las mejores acciones, antes y después de disponer de la infor¬ 
maciôn. 


Una formula general 

Es sencillo derivar una formula matemâtica y general para el valor de la informaciôn. 
Habitualmente, se supone la obtenciôn de una evidencia exacta acerca de una variable 
aleatoria Ej, de forma que se utiliza la expresiôn valor de la informaciôn perfecta (VIP) 6 . 
Sea E el conocimiento actual de un agente. Entonces el valor de la mejor acciôn a para 
el estado actual a se define mediante 

EU(ct\E) = mâx V U (Resultado/A)) P (Resultado/A) \Realizar(A), E) 

A i 

y el valor de la mejor acciôn a la vista de una nueva evidencia Ej sera 

EU(a E \E, E) = mâx X U{Resultado(A )) P(Resultado ,(A ) I Realizar(A), E, El) 

J J A i J 

Pero si E. es una variable aleatoria cuyo valor actual se desconoce, entonces debe pro- 
mediarse sobre todos los posibles valores e jk que puede tomar E p empleândose la creen- 
cia actual sobre su valor. El valor de determinar E p dado el estado actual de informaciôn 
E, se define como 

V1P e {E) = (I P(E j = e jk \E)EU(a e jE, E j = e jk )J - EU(a\E) 

Con el fin de interpretar intuitivamente esta formula, considérese el caso sencillo en que 
solo son posibles dos acciones A x y A 2 , entre las cuales se debe elegir una. Sus valores 
de utilidad actuales son U 1 y U 2 , respectivamente. La informaciôn E j harâ que los nue- 
vos valores esperados de utilidad sean U\ y U’ 2 para cada acciôn, pero, antes de obtener 
Ej se tiene cierta distribuciôn de probabilidad sobre todos los posibles valores de U[ y U' 2 
(que se supondrân independientes). 


6 La informaciôn imperfecta acerca de la variable X se puede modelar como informaciôn perfecta sobre otra 
variable Y que esta relacionada de forma probabilista con X. El Ejercicio 16.11 ilustra esta relaciôn median¬ 
te un ejemplo. 
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Supôngase que A l y A 2 representan dos rutas diferentes a través de una cadena mon- 
tanosa en invierno. A , es una carretera buena y sin muchas curvas que pasa por un puer- 
to de montana no muy alto y A 2 es una carretera de tierra y sinuosa que pasa por la cima 
de la montana. Una vez conocida esta informaciôn, la ruta A , es claramente preferible, 
ya que es bastante probable que la segunda ruta se encuentre bloqueada por las avalan- 
chas, mientras que es bastante improbable que la primera se encuentre bloqueada por el 
trâfico. Por lo tanto, el valor de utilidad U x es claramente mayor que U 2 . Es posible ob- 
tener informes de satélites E -sobre el estado actual de cada carretera que podrfa dar nue- 
vos valores de utilidad esperados, y, para los dos trayectos. Las distribuciones de estos 
valores esperados se muestran en la Figura 16.7(a). Obviamente, en este caso, no me- 
rece la pena obtener los informes del satélite ya que es improbable que la informaciôn 
derivada de ellos cambie nuestro plan. Si no hay cambio, la informaciôn no tiene valor. 

Supôngase ahora que se esta planteando la posibilidad de elegir una de entre dos ca- 
rreteras de tierra, sinuosas y con una longitud similar y que se transporta a un pasajero 
gravemente herido. En ese caso, incluso cuando U x y U 2 estân bastante prôximas, las dis¬ 
tribuciones de U[ y U 2 son muy amplias. Existe una posibilidad significativa de que la 
segunda ruta pase a estar despejada mientras que la primera se encuentre bloqueada y, 
en este caso, la diferencia en los valores de utilidad sera elevada. El valor de la infor¬ 
maciôn perfecta indica que puede merecer la pena conseguir los informes del satélite. 
Tal situaciôn se muestra en la Figura 16.7(b). 

Otra situaciôn diferente se da cuando se tiene que elegir entre las dos c arrêteras de 
tierra para hacer el viaje en verano, cuando las avalanchas de nieve son improbables. En 
este caso, los informes del satélite pueden mostrar que una de las mtas sea mas bonita 
que otra por atravesar praderas alpinas florecientes, o quizâ mas peligrosa a causa de las 
tormentas. Es bastante probable que se cambiasen los planes si se contara con la infor¬ 
maciôn. Pero en este caso, es muy probable que la diferencia numérica entre las dos ru¬ 
tas sea muy pequena, por lo que no se tomarân molestias en obtener los informes. Esta 
situaciôn se muestra en la Figura 16.7(c). 


P (U I Ej) 


P (U I Ej) 



P(U I E.) 



Figura 16.7 Très casos genéricos de valor de la informaciôn. En (a) A seguirâ siendo casi con 
toda seguridad superior a A, por lo que no es necesaria la informaciôn. En (b), la elecciôn no esta 
clara y la informaciôn es crucial. En (c), la elecciôn no esta clara pero puede haber una pequena 
diferencia por lo que la informaciôn tiene menos valor. 
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En definitiva, puede afirmarse que la information tiene valor en la medida en que 
tiene probabilidad de provocar la modification de un plan y en la medida en que el nue- 
vo plan resuite significativamente mejor que el anterior. 

Propiedades del valor de la informaciôn 

Uno puede preguntarse si es posible que la informaciôn sea perjudicial: / ; pucdc tener un 
valor esperado negativo? Intuitivamente, deberia esperarse que esta situaciôn fuera im- 
posible. Después de todo, puede ignorarse la informaciôn en el peor caso y aparentar que 
nunca se ha recibido. Este hecho es confirmado por el teorema siguiente que es aplica- 
ble a cualquier agente basado en la teoria de la decision: 

El valor de la information es no negativo: 

Vj,E VIP r (Ej) > 0 

El teorema se dériva directamente de la definiciôn del término VIP y se déjà la pmeba 
como ejercicio (Ejercicio 16.12). Es importante recordar que el término VIP dépende 
del estado actual de informaciôn, y de ahi, la presencia del subindice en el enunciado. 
Puede cambiar conforme se adquiere mas informaciôn y en el caso extremo, puede 11e- 
gar a ser nulo si la variable en cuestiôn tiene un valor conocido. Por lo tanto, el término 
VIP no es aditivo, es decir 

VIP e (Ej, E k ) ri VIP e (Ej) + VIP E {E k ) (en general) 

Sin embargo, el valor de la informaciôn perfecta es independiente del orden en que se 
obtengan las evidencias, lo cual parece, intuitivamente, obvio. Asi, se tiene que 

VIP E (E jt E h ) = V1 P e {E) + VIP E F (E k ) = VlP E {E k ) + VlP E E fEf 

La independencia del orden diferencia las acciones de percepciôn de las acciones ordi- 
narias y simplifica el problema de determinar la secuencia en la que realizar las accio¬ 
nes de percepciôn. 

Implementaciôn de un agente recopilador 
de informaciôn 

Un agente sensato deberia hacer preguntas al usuario en un orden razonable, deberia evi- 
tar preguntar cuestiones irrelevantes, deberia considerar la importancia de cada infor¬ 
maciôn en funciôn de su coste y deberia parar de hacer preguntas cuando sea oportuno. 
Todas estas capacidades se pueden conseguir mediante la utilizaciôn del valor de la in¬ 
formaciôn como guia. 

La Figura 16.8 muestra el diseno completo de un agente que puede recopilar infor¬ 
maciôn de forma inteligente, antes de actuar. Por ahora, se supondrâ que con cada va¬ 
riable de evidencia observable E j , se tiene un coste asociado, CosteiEf que refleja el 
coste de obtener la evidencia a través de pruebas, consultores, cuestionarios o cualquier 
otra forma. El agente solicita aquella informaciôn que résulta mas valiosa en compara- 
ciôn con su coste. Se entiende que el resultado de la acciôn SolicitarfE') es tal, que la 
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AGENTE MIOPE 


16.7 


ANÂUSIS DE 
LA DECISION 


funciôn Agente-Recopilador-Informaciôn ( perception ) devuelve una acciân 

variables estâticas: D, una red de decision 

integrar perception dentro de D 
j <— valor que maximiza VIP(Ej) — Coste(Ej ) 
si VIP(E) > Coste(Ej) 

entonces devolver Solicitar^) 
si no devolver la mejor accion de D 


Figura 16.8 Diseno de un sencillo agente recopilador de information. El agente funciona me- 
diante la selecciôn de la observaciôn con el mayor valor de informacion de forma iterativa hasta 
que el coste de la siguiente observaciôn es mayor que su beneficio esperado. 


siguiente accion perceptiva proporciona el valor de E-. Si ninguna accion perceptiva vale 
su coste, el agente selecciona una accion «real». 

El algoritmo descrito implémenta una forma de recopilaciôn de informacion que se 
denomina miope. Este calificativo se debe al hecho de que el agente utiliza el término 
VIP con poca vision de futuro, calculando el valor de la informacion como si fuera la 
ünica variable de evidencia a adquirir. Si no se tiene una ünica variable de evidencia 
que, de forma clara, ayude a adoptar la decision, un agente miope puede adoptar pre- 
cipitadamente una accion, cuando hubiera sido mejor solicitar dos o mas variables pri¬ 
mera y luego adoptar la accion. El control miope se basa en el mismo criterio heuristico 
de la büsqueda voraz y a menudo funciona bien en la prâctica (por ejemplo, esta es- 
trategia ha demostrado ser mejor que expertos médicos en lo que se refiere a la élec¬ 
tion de pruebas diagnosticas). Sin embargo, un agente recopilador de informacion 
racional idéal, deberia considerar todas las posibles secuencias de solicitar informacion 
concluyendo con una accion externa y todas los posibles resultados de taies solicitu- 
des. Dado que el valor de la segunda solicitud dépende del resultado de la primera, el 
agente necesitaria explorar el espacio de planes condicionados, tal y como se descri- 
biô en el Capitulo 12. 


Sistemas expertos basados en la teoria 
de la decision 


El campo del anâlisis de la decision, que se desarrollô en los anos 50 y 60, estudia la 
aplicacion de la teoria de la decision a los problemas de decision actuales. Se utiliza 
para ayudar a tomar decisiones razonables en dominios relevantes en los que estân en 
juego intereses importantes, como son el mundo empresarial, gubernamental y legis- 
lativo, la estrategia militar, el diagnôstico médico y la salud püblica, el diseno en la in- 
genieria y la gestion de recursos. El proceso incluye un estudio cuidadoso de todas las 
acciones posibles y sus consecuencias, asi como las preferencias planteadas en cada 
resultado. En la terminologia del anâlisis de la decision es habituai distinguir entre el 
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sujeto decisor, que establece preferencias entre los resultados, y el analista de deci- 
siones que enumera las acciones y resultados posibles y obtiene preferencias del suje¬ 
to que toma las decisiones para determinar el mejor curso de la accion. Hasta comienzos 
de la década de los 80, el objetivo principal del anâlisis de la decision fue ayudar a los 
seres humanos en la toma de decisiones que realmente reflejen sus propias preferen¬ 
cias. Hoy en dia, cada vez se automatizan mas procesos de decision y el anâlisis de la 
decision se utiliza para garantizar que los procesos automâticos se comportan tal y como 
se desea. 

Como se discutiô en el Capitulo 14, las primeras investigaciones en el campo de los 
sistemas expertos se concentraron en responder preguntas, mas que en tomar decisiones. 
Aquellos sistemas que no recomendaban acciones, mas bien proporcionaban opiniones 
sobre diversos asuntos y, generalmente, lo hacian empleando réglas condicion-accion, 
mas que con representaciones explicitas de los resultados y las preferencias. La apari- 
cion de las redes Bayesianas a finales de los anos 80 hizo posible la construccion de sis¬ 
temas a gran escala que generaban inferencias probabilistas sôlidas a partir de evidencias. 
La incorporacion de las redes de decision se traduce en que se pueden desarrollar siste¬ 
mas expertos que recomienden decisiones optimas, considerando tanto las preferencias 
del usuario como la evidencia disponible. 

Un sistema que incorpore el tratamiento de valores de utilidad puede evitar una de 
las principales dificultades asociadas al proceso consultivo: la confusion entre probabi- 
lidad e importancia. Una estrategia corriente de los primeras sistemas expertos médicos, 
por ejemplo, fue ordenar los diagnosticos posibles en funciôn de su probabilidad y con¬ 
sidérer el mas probable. Desafortunadamente, esto puede proporcionar resultados de- 
sastrosos. En la prâctica, los dos diagnosticos mas probables para la mayoria de los 
pacientes son habitualmente «que no padece nada serio» o «que tiene un resfriado», pero 
si para un paciente concreto, el tercer diagnostico mas probable es un cancer de pulmôn, 
se trata de un asunto grave. Obviamente, una prueba diagnôstica o un tratamiento de- 
beria depender tanto de la probabilidad como de la utilidad. 

Se describirâ el proceso de ingenieria del conocimiento para los sistemas expertos 
basados en la teoria de la decision. Como ejemplo, se considerarâ el problema de se- 
leccionar el tratamiento médico de una enfermedad cardiaca congénita en ninos (véase 
Lucas, 1996). 

Cerca de un 0,8 por ciento de los ninos nacen con una anomalia cardiaca, siendo la 
mas comün la coartaciôn de la aorta (consistente en un estrechamiento de la aorta). Pue¬ 
de tratarse con cirugia, con una angioplastia (dilatacion de la aorta mediante la intro¬ 
duction de un balon dentro de la arteria) o con medicaciôn. El problema consiste en 
decidir qué tratamiento utilizar y cuândo hacerlo: cuanto mas pequeno es el nino mayor 
es el riesgo de ciertos tratamientos, si bien no se puede esperar demasiado. Un sistema 
experto basado en la teoria de la decision para este problema puede crearse partiendo de 
un equipo formado, al menos, por un experto del dominio (un cardiôlogo pediatra) y un 
ingeniero del conocimiento. El proceso puede descomponerse en los pasos siguientes (que 
pueden compararse con los pasos seguidos en el desarrollo de sistemas basados en 16- 
gica mostrados en la Section 8.4). 

Crear un modelo causal. Determinar cuales son los posibles sintomas, afeccio- 
nes, tratamientos y consecuencias. Una vez hecho esto dibujar arcos entre ellos, in- 
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dicando cuâles son las afecciones que causan determinados smtomas y qué trata- 
mientos alivian las distintas afecciones. Algunas de estas relaciones serân conocidas 
por el experto del dominio y otras se extraerân de la bibliografia. A menudo, el mo- 
delo se ajustarâ bien a las descripciones grâficas informales que aparecen en los tex¬ 
tes médicos. 

Simplificar a un modelo de decision cualitativo. Puesto que estamos utilizando el 
modelo para tomar decisiones acerca de los posibles tratamientos y no para otros fines 
(como determinar la distribucion de probabilidad conjunta de determinadas combina- 
ciones de smtomas/afecciones), puede simplificarse el modelo eliminando variables 
que no estân involucradas en la determinacion del tratamiento. Por ejemplo, el modelo 
original para el problema propuesto tendria una variable Tratamiento que toma como 
posibles valores cirugîa, angioplastia o medicaciôn y otra variable para la Fecha del tra¬ 
tamiento. Aün asi, el experto puede tener dificultades para tratar por separado estas va- 
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riables, y se pueden combinar de forma que, por ejemplo, Tratamiento pueda tomar va- 
lores taies como cirugîa en un mes. Estas consideraciones se plasman en el modelo que 
aparece en la Figura 16.9. 

Asignar probabilidades. Las probabilidades iniciales pueden establecerse a partir 
de bases de datos de pacientes, de estudios recogidos en la bibliografia o de las valora- 
ciones subjetivas del experto. En los casos donde las probabilidades conocidas a través 
de la bibliografia no son condicionadas, pueden utilizarse técnicas como la régla de Ba¬ 
yes o la marginalizacion para obtener las probabilidades deseadas. Se ha constatado que 
los expertos son mas capaces de valorar la probabilidad de un efecto dada una causa (por 
ejemplo, P(disnea \ fallo cardîaco)) que de cualquier otra forma. 

Asignar utilidades. Cuando hay un nümero pequeno de resultados posibles, és- 
tos pueden enumerarse y evaluarse individualmente. Se consideraria una escala des- 
de el mejor al peor resultado asignando a cada extremo un valor numérico, por ejemplo, 
-1.000 en caso de fallecer el nino y 0 para una compléta recuperacion. Una vez he- 
cho esto, deberian situarse el resto de resultados sobre la escala. Esto puede hacerlo 
el experto, pero es mejor si el paciente (o en el caso de ninos, sus padres) esta invo- 
lucrado, ya que cada uno puede tener preferencias diferentes. Si los posibles resulta¬ 
dos son excesivos, se necesitarâ alguna forma de combinarlos mediante funciones de 
utilidad multiatributo. Por ejemplo, puede establecerse que la utilidad negativa de va¬ 
rias complicaciones sea aditiva. 

Verificar y refinar el modelo. Para evaluar el sistema se necesitarâ un conjunto 
estândar de oro de pares (entrada, salida) correctos; el denominado estândar de oro con el que com- 
parar. Para los sistemas expertos médicos esto significa a menudo reunir a los mejores 
especialistas, presentarles un conjunto reducido de casos y preguntarles por su diag¬ 
nostico y su tratamiento recomendado. Luego se trata de ver lo bien que el sistema se 
ajusta a sus recomendaciones. Si los resultados obtenidos son pobres, se tratarâ de ais- 
lar los componentes que funcionan incorrectamente y corregirlos. Puede resultar ütil 
ejecutar el sistema «hacia atrâs». En lugar de presentar al sistema los sintomas y pre- 
guntar por un diagnostico, puede presentarse un diagnostico como «fallo cardiaco», exa- 
minar la probabilidad pronosticada de sintomas como taquicardia y comparar con la 
bibliografia médica. 

Realizar un anâlisis de la sensibilidad. Este paso importante comprueba si la me¬ 
jor decision es sensible a pequenos cambios en las probabilidades y utilidades asigna- 
das mediante la variaciôn sistemâtica de estos paramétras y la ejecuciôn de la evaluacion 
otra vez. Si cambios pequenos conducen a decisiones significativamente diferentes en¬ 
fonces podria merecer la pena gastar mas recursos en obtener mejores datos. Si todas la 
variaciones conducen a la misma decision, enfonces el usuario tendra una mayor con- 
fianza en que la decision es la correcta. El anâlisis de la sensibilidad es particularmen- 
te importante ya que una de las principales criticas a la aproximacion probabilista de los 
sistemas expertos es la excesiva dificultad para evaluar las probabilidades numéricas re- 
queridas. El anâlisis de la sensibilidad révéla a menudo que muchos de los valores ne- 
cesitan especificarse solo muy aproximadamente. Por ejemplo, puede tenerse 
incertidumbre acerca de la probabilidad previa P (taquicardia), pero si se prueban mu¬ 
chos valores diferentes y en cada caso se obtiene la misma recomendacion enfonces uno 
se puede despreocupar un tanto de su ignorancia. 



690 INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


16.8 Resumen 


Este capitulo muestra como combinar la teorîa de la utilidad con la teorfa de la proba- 
bilidad para permitir a un agente seleccionar acciones que maximicen su rendimiento 
esperado. 

• La teorîa de la probabilidad describe en qué deberia créer un agente con base en 
la evidencia, la teorîa de la utilidad describe lo que un agente desea, y la teoria 
de la decision engloba a las dos para describir lo que deberia hacer un agente. 

• Puede utilizarse la teoria de la decision para construir un sistema que adopte de- 
cisiones mediante la consideraciôn de todas las acciones posibles y mediante la 
elecciôn de aquella que conduce al mejor resultado esperado. Un sistema con es¬ 
tas caracteristicas se conoce como un agente racional. 

• La teoria de la utilidad demuestra que un agente cuyas preferencias entre loterias 
son consistentes con un conjunto de axiomas sencillos, puede describirse me¬ 
diante una funciôn de utilidad que el agente posee; ademâs, el agente selecciona 
sus acciones mediante la maximizaciôn de su utilidad esperada. 

• La teoria de la utilidad multiatributo trata con utilidades que dependen de va- 
rios atributos de los estados diferentes. El predominio estocâstico es una técnica 
particularmente ütil en la toma de decisiones ambiguas, incluso sin contar con los 
valores de utilidad precisos para los atributos. 

• Las redes de decision proporcionan un formalismo sencillo para expresar y resolver 
problemas de decision. Son una extension natural de las redes Bayesianas que in- 
cluyen nodos de decision y de utilidad, ademâs de los nodos aleatorios. 

• En algunas ocasiones, la resoluciôn de un problema implica encontrar mas infor¬ 
maciôn antes de adoptar una decision. El valor de una informaciôn se define como 
la mejora esperada en el valor de la utilidad comparândolo con la decision toma- 
da sin contar con tal informaciôn. 

• Los sistemas expertos que incorporan informaciôn de utilidad presentan capa- 
cidades adicionales en comparaciôn con los sistemas de inferencia puros. Ademâs 
de ser capaces de tomar decisiones, pueden utilizar el valor de una informaciôn 
para decidir si la adquieren o no y pueden calcular la sensibilidad de sus decisiones 
frente a pequenos cambios en las asignaciones de probabilidad y utilidad. 



Notas bibliogrâficas e histôricas 

Una de las primeras aplicaciones del principio de mâxima utilidad esperada (aunque se 
trate de una variaciôn que trata con utilidades infinitas) fue la Apuesta de Pascal, publi- 
cada por primera vez como parte de la Port-Royal Logic (Arnauld, 1662). Daniel Ber¬ 
noulli (1738), investigando la paradoja de San Petersburgo (véase Ejercicio 16.3), fue 
el primero en comprender la importancia de evaluar preferencias para las loterias escri- 
biendo «el valor de un arriculo no debe basarse en su precio sino en la utilidad que pro- 
porciona» (cursivas propias del autor). Jeremy Bentham (1823) propuso el câlculo 
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hedonista para ponderar «placeras» y «molestias», arguyendo que todas las decisiones 
(no solo las monetarias) pueden reducirse a comparaciones de utilidad. 

El origen de las utilidades numéricas a partir de preferencias fue realizado por prime¬ 
ra vez por Ramsey (1931); los axiomas para la preferencia en este texto son mas proximas 
en su forma a las redescubiertas en el libro Theory ofGames and Economie Behavior (von 
Neumann y Morgenstern, 1944). Una buena exposiciôn de estos axiomas, en lo que se re- 
fiere a la discusiôn sobre la preferencia en el riesgo, se tiene en Howard (1977). Ramsey 
derivo las probabilidades subjetivas (no solo utilidades) a partir de las preferencias de un 
agente; Savage (1954) y Jeffrey (1983) desarrollaron construcciones de este tipo mas re- 
cientes. Von Winterfeldt y Edwards (1986) proporcionaron una perspectiva modema al anâ- 
lisis de la decision y su relaciôn con las estructuras humanas de preferencia. La medida de 
la utilidad denominada micromortalidad se debate en Howard (1989). Un estudio de 1994 
realizado por la publicacion The Economist estableciô el valor de una vida humana entre 
750.000 dolares y 2,6 millones de dolares. Sin embargo, Richard Thaler (1992) encontre 
irracional la variaciôn en el precio que uno esta dispuesto a pagar para evitar un riesgo de 
fallecimiento, frente al precio que uno esta dispuesto a cobrar por aceptar el riesgo. Para 
una probabilidad de uno entre 1.000, un encuestado no pagarfa mas de 200 dolares por evi¬ 
tar el riesgo pero no aceptarfa 50.000 dolares por asumir el riesgo. 

Los indices AVAC se utilizan mas extensamente en problemas de decision référan¬ 
tes a polltica social y de salud que los indices de micromortalidad: véase (Russel, 1999) 
para obtener un ejemplo tlpico de una argumentacion de una importante decision en el 
âmbito de la salud püblica basada en un incremento de la utilidad esperada, medida en 
las unidades AVAC. 

El libro Decisions with Multiple Objectives: Preferences and Value Tradeoffs (Keeney 
y Raiffa, 1976) proporciona una rigurosa introducciôn a la teoria de la utilidad multiatri- 
buto. Describe las primeras implementaciones computacionales de métodos para la ob- 
tenciôn de los paramètres necesarios para una funcion de utilidad multiatributo e incluye 
una coleccion muy extensa de consideraciones en relaciôn con aplicaciones reales de la 
teoria. En el âmbito de la IA, la referencia principal de la teoria de la utilidad multiatribu¬ 
to es un artlculo de Wellman (1985) que incluye un sistema denominado URP ( UtilityRe- 
asoning Package) que puede utilizar un conjunto de declaraciones sobre independencia de 
preferencia e independencia condicional para analizar la estructura de problemas de deci¬ 
sion. El uso del predominio estocâstico junto con los modelos probabilistas cualitativos fue- 
ron intensamente investigados por Wellman (1988, 1990a). Wellman y Doyle (1992) 
proporcionan un esquema preliminar de cômo un conjunto complejo de relaciones utili- 
dad-independencia pueden usarse para establecer un modelo estmeturado de una funcion 
de utilidad del mismo modo que las rades Bayesianas aportan un modelo estructurado de 
las distribuciones de probabilidad conjuntas. Bacchus y Grave (1995, 1996) y La Mura y 
Shoham (1999) aportaron posteriores y mas avanzados resultados en esta lrnea. 

La teoria de la decision ha sido una herramienta estândar en las ciencias econômicas, 
empresariales y de gestion desde 1950. Hasta la década de los 80, los ârboles de decision 
fueron la herramienta principal que se utilizô para representar problemas de decision sen- 
cillos. Smith (1988) proporciona una perspectiva general de la metodologfa del anâlisis 
de la decision. Las rades de decision o diagramas de influencia fueron introducidos por 
Howard y Matheson (1984) con base en un trabajo preliminar de un grupo (en el que es- 
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taban Howard y Matheson) en el SRI (Miller et al., 1976). El método de Howard y Ma- 
theson implicaba la derivaciôn de un ârbol de decision a partir de una red de decision, 
pero, por lo general, el tamano del ârbol crece râpidamente. Shachter (1986) desarrollô 
un método de toma de decisiones basado directamente sobre una red de decision, sin ne- 
cesidad de construir un ârbol de decision intermedio. Este algoritmo fue también uno de 
los primeros en proporcionar inferencia compléta para varias redes Bayesianas conecta- 
das. Un trabajo reciente de Nilsson y Lauritzen (2000) relaciona los algoritmos utiliza- 
dos por las redes de decision con desarrollos en curso de algoritmos de agrupamiento 
empleados por redes Bayesianas. La recopilaciôn de Oliver y Smith (1990) proporciona 
una sérié de articulos ütiles sobre redes de decision, al igual que el numéro especial del 
ano 1990 de la revista Networks. Articulos sobre redes de decision y modelado de fun- 
ciones de utilidad aparecen regularmente en la revista Management Science. 

Ron Howard (1966) fue el primera en analizar la teoria del valor de la informaciôn. 
Su articulo concluyô con la observation «Si la teoria del valor de la informaciôn y las es- 
tructuras asociadas a la teoria de la decision no ocupan un lugar prépondérante en la futu- 
ra ensenanza de los ingenieros, entonces la ingenieria se encontrarâ con que su papel 
tradicional en la gestion cientifica y de los recursos econômicos en pos del beneficio del 
hombre, habrâ sido usurpada por otra profesiôn». Hasta la fecha no se ha dado la revolu- 
ciôn esperada en los métodos de gestion, aunque la situaciôn puede cambiar conforme se 
extienda el uso de la teoria del valor de la informaciôn en sistemas expertos Bayesianos. 

Sorprendentemente, pocos investigadores de la IA adoptaron las herramientas de la 
teoria de la decision después de las primeras aplicaciones enproblemas de decision mé- 
dicos descritos en el Capitulo 13. Una de las pocas excepciones fue Jerry Feldman, quien 
aplicô la teoria de la decision a problemas de vision (Feldman y Yakimovsky, 1974) y 
planificaciôn (Feldman y Sproull, 1977). Después del resurgimiento del interés en los 
métodos probabilistas en la IA hacia la década de los 80, los sistemas expertos basados 
en la teoria de la decision obtuvieron una amplia aceptaciôn (Horvitz et al., 1988). De 
hecho, del ano 1991 en adelante, el diseno de la portada de la revista Artificial Intelli¬ 
gence représenta una red de decision, si bien parece que se han tomado algunas licen¬ 
cias artisticas en cuanto a la direcciôn de los arcos. 



EJERCICIOS 

16.1 (Adaptado a partir del ejercicio propuesto por David Heckerman). Este ejercicio 
se refiere al Juego del Almanaque que utilizan los analistas de la decision para calibrar 
estimaciones numéricas. Se trata de dar la mejor respuesta que uno puede intuir a cada 
una de las preguntas que se hacen, es decir, el nümero cuya probabilidad de ser dema- 
siado elevado sea la misma que la de ser demasiado bajo. También estime el primer cuar- 
til, es decir, el nümero que piense que tiene un 25 por ciento de probabilidades de ser 
demasiado elevado y un 75 por ciento de probabilidades de ser demasiado bajo. Haga 
lo mismo con el tercer cuartil. Una vez hecho esto, se tendrân très estimaciones en to¬ 
tal (baja, media y alta) para cada cuestiôn. 


a) Nümero de pasajeros que volaron entre Nueva York y Los Angeles en el ano 1989. 




TOMA DE DECISIONES SENC1LLAS 693 


b) La poblacion de Varsovia en 1992. 

c ) El ano en que Coronado descubrio el Rio Mississippi. 

d) El nümero de votos obtenidos por Jimmy Carter en las elecciones presidencia- 
les de 1976. 

e ) La edad del ârbol viviente mas viejo. 

f) La altura de la près a de Hoover (en pies). 

g) El nümero de huevos producidos en Oregon en 1985. 

h) El nümero de budistas en el mundo en el ano 1992. 

i) El nümero de muertes por SIDA en Estados Unidos en el ano 1981. 

j) El nümero de patentes concedidas en Estados Unidos en 1901. 

Las respuestas correctas aparecen después del ültimo ejercicio de este capitulo. Desde 
el punto de vista del anâlisis de la decision, la cuestion importante no es cômo se apro- 
ximan sus estimaciones médias a los valores reales sino mas bien la frecuencia en que 
la contestacion real cae dentro de los limites estimados para el primer y tercer cuartil. 
Si esta alrededor de la mitad de las veces, sus limites son precisos. Pero si, como la ma- 
yoria de la gente, usted esta tan seguro de si mismo de lo que deberfa, sus estimaciones 
caerân dentro del intervalo bastante menos veces que la mitad. Con la prâctica, podrâ 
calibrarse para dar unos limites mas realistas y por lo tanto mas ütiles a la hora de apor- 
tar informaciôn en la toma de decisiones. Pruebe con este segundo juego de preguntas 
y compruebe si hay alguna mejora: 

a) El ano de nacimiento de Zsa Zsa Gabor. 

b) La distancia mâxima de Marte al sol (en millas). 

c ) El valor (en dolares) de las exportaciones de trigo de Estados Unidos en 1992. 

d) Las toneladas manejadas en el puerto de Honolulu en el ano 1991. 

e) El salario anual (en dolares) del gobemador de California en 1993. 

f) La poblacion de San Diego en 1990. 

g) El ano en que Roger Williams fundo Providence, Rhode Island. 

h) La altura del Monte Kilimanjaro (en pies). 

i) La longitud del Puente de Brooklyn (en pies). 

î) El nümero de muertes ocasionadas por accidentes de trâfico en Estados Unidos 
en 1992. 

16.2 Los boletos de una loteria cuestan un dolar. Hay dos posibles premios: uno de 10 
dolares con una probabilidad de uno entre 50 y otro de 1.000.000 dolares con una pro- 
babilidad de uno entre 2.000.000. /Cual es el valor monetario esperado del boleto de lo¬ 
teria? ^Cuândo es razonable comprar un boleto? Sea preciso (muestre una ecuacion en 
la que se consideren valores de utilidad). Puede suponer que actualmente dispone de k 
dolares y que su utilidad es cero, U(S k ) = 0. También puede suponer que U(S k + 10 ) = 
10 X U(S k + j), pero puede no hacer suposiciôn alguna sobre U(S k + 1 000 000 ). Estudios so- 
ciologicos muestran que la gente con ingresos mas pequenos compra un nümero des- 
proporcionado de boletos de loteria. / Picnsa que esto se debe a que son peores a la hora 
de tomar la decision o a que tienen una funcion de utilidad diferente? 

16.3 En 1738, J. Bernoulli investigô la paradoja de San Petersburgo que se describe a 
continuacion. Usted tiene la oportunidad de jugar un juego en el que una moneda no tru- 


694 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 




cada se lanza repetidas veces hasta que saïga cara. Si la primera cara aparece en el n- 
ésimo lanzamiento, ganarâ 2” dolares. 

a) Demuestre que el valor monetario esperado de este juego es infinito. 

b) ^Cuanto podria usted (personalmente) pagar por jugar a este juego? 

c ) Bernoulli resolvio la aparente paradoja mediante la sugerencia de que la utilidad 
del dinero se mide con una escala logaritmica (es decir, U(S n ) = a lcg 2 n + b, don- 
de S n es el estado caracterizado por poseer n dolares). ^Cuâl es la utilidad es- 
perada del juego bajo esta suposicion? 

d) ^Cuâl es la cantidad mâxima que séria razonable pagar por jugar, suponiendo 
que la riqueza inicial es de k dolares? 

16.4 Establezca su propia utilidad para diferentes incrementos de dinero mediante la 
ejecucion de una sérié de pruebas de preferencia entre una determinada cantidad M x y 
una loteria [p, M 2 , (1 — p), 0]. Elija valores distintos para M x y /Vf, y varie p hasta que 
se muestre indiferente entre las dos opciones. Représente grâficamente la funciôn de uti¬ 
lidad résultante. 

16.5 Escriba un programa de computador que automatice el proceso indicado en el Ejer- 
cicio 16.4. Verifique los resultados del programa con varias personas de diferente poder 
adquisitivo e inclinaciones politicas. Comente la consistencia de sus resultados tanto para 
un individuo como entre individuos. 

16.6 /Cuanto vale el indice de micromortalidad para usted? Conciba un protocolo para 
determinarlo. Pregunte por cuestiones basadas tanto en pagar por evitar un riesgo como 
en cobrar por asumirlo. 

16.7 Demuestre que si X { y X 2 son independientes en cuanto a la preferencia de X 3 , y 
que X 2 y X, son independientes respecto a X v enfonces X 3 y X x son independientes en 
cuanto a la preferencia frente a X 2 . 

16.8 Este ejercicio compléta el anâlisis del problema del emplazamiento del aeropuerto 
de la Figura 16.5. 

a) Proporcione los recorridos de las variables, las probabilidades y utilidades para 
la red, considerando que son très los posibles emplazamientos. 

b) Resuelva el problema de decision. 

c ) / ; Quc ocurre si un avance tecnolôgico hace que los aviones produzcan la mitad 
del ruido que ahora? 

d ) / ; Quc ocurre si la importancia de la prevencion contra la contaminacion acüsti- 
ca se multiplica por très? 

e ) Calcule el valor de la informacion perfecta para TrâficoAéreo, Litigio y Cons¬ 
truction para su modelo. 

16.9 Repita el Ejercicio 16.8 empleando la representacion mediante tablas accion-uti- 
lidad mostrada en la Figura 16.6. 

16.10 Para cada uno de los diagramas del emplazamiento del aeropuerto de los Ejer- 
cicios 16.8 y 16.9, qué entrada de la tabla de probabilidad condicionada es mas sensi¬ 
ble, dada la evidencia conocida? 
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16.11 (Adaptado a partir del ejercicio propuesto por Pearl (1988).) Un comprador de 
coches de segunda mano puede decidir realizar varias pruebas con diferentes costes (que 
pueden ir desde comprobar la presion de las ruedas con una patada hasta llevar el coche 
a un mecânico de confianza) y una vez realizadas, y dependiendo del resultado de las 
pruebas, decidir qué coche comprar. Supondremos que el comprador se encuentra deci- 
diendo si compra el coche c v que tiene tiempo de realizar cuando menos una prueba y 
que fj es la prueba de c 1 y cuesta 50 dolares. 

Un coche puede estar en buenas condiciones (calidad q + ) o en malas condiciones (ca- 
lidad q ~) y las pmebas pueden ayudar a saber en qué estado se encuentra el coche. El 
coche Cj cuesta 1.500 dolares y el valor de mercado es de 2.000 dolares si esta en bue¬ 
nas condiciones. Si no es asl, el coche necesitarâ una reparaciôn cuyo coste ascenderâ 
a 700 dolares. El comprador estima que hay un 70 por ciento de probabilidades de que 
el coche esté en buenas condiciones. 

a) Dibuje la red de decision que représenta a este problema. 

b) Calcule la ganancia neta estimada por la compra de c v suponiendo que no se 
realiza ninguna pmeba. 

c) Las pruebas se pueden describir mediante la probabilidad de que el coche pase 
o no el correspondiente chequeo, conociendo que el coche esté en buenas o ma¬ 
las condiciones. Tenemos la informacion siguiente: 

P(superar(c v fj) | q + (c l )) = 0,8 
P(superar(c v fj) | q~{c^)) = 0,35 

Use el esquema de Bayes para calcular la probabilidad de que el coche pase (o 
falle) su test y por lo tanto la probabilidad de que esta en buena (o mala) con- 
dicion, dado cada posible resultado del test. 

d) Calcule las decisiones optimas conociendo que el coche supera o no la prueba 
y sus utilidades esperadas. 

e) Calcule el valor de la informacion del chequeo y dérivé el plan condicionado 
ôptimo para el comprador. 

16.12 Pruebe que el valor de la informacion es no negativo e independiente del orden, 
tal y como se plantea en la Seccion 16.6. Explique cômo, después de recibir una infor¬ 
macion, uno puede tomar una decision peor que si la hubiera tomado antes de conocer 
tal informacion. 

16.13 Modifique y amplie el côdigo de la red Bayesiana del repositorio de codigo para 
permitir crear y evaluar redes de decision, as! como, para calcular el valor de la infor¬ 
macion. 

Las respuestas del Ejercicio 16.1 (donde M indica que el valor se multiplica por un mi- 
llon) son: para el primer conjunto: 3M; 1,6M; 1.541; 41M; 4.768; 221; 649M; 295M; 
132; 25.546. Para el segundo conjunto: 1917; 155M; 4.500M; 11M; 120.000; 1,1M; 
1.636; 19.340; 1.595; 41.710. 
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Donde se examinan métodos para decidir qué hacer hoy, conociendo 
lo que podemos decidir de nuevo manana. 


PROBLEMAS DE 

DECISION 

SECUENCIALES 


Este capitulo trata sobre las cuestiones computacionales involucradas en la toma de de¬ 
cisiones. Mientras que el Capitulo 16 tratô con problemas de decision episôdicos en los 
que la utilidad del resultado de cada acciôn es conocida, en este capitulo se tratan los 
problemas de decision secuenciales, aquellos en los que la utilidad para el agente dé¬ 
pende de la secuencia de acciones. Los problemas de decision secuenciales que inclu- 
yen utilidades, incertidumbre y percepciôn, son una generalizaciôn de los problemas de 
büsqueda y planificacion descritos en las Partes II y IV. La Seccion 17.1 explica como 
se definen los problemas de decision secuenciales y las Secciones 17.2 y 17.3 explican 
como pueden resolverse para obtener un comportamiento ôptimo que équilibré los ries- 
gos y las recompensas de actuar en un entomo incierto. La Seccion 17.4 amplia estas 
ideas al caso de entornos parcialmente observables y la Seccion 17.5 desarrolla un di- 
seno completo para agentes basados en la teorfa de la decision en entornos parcialmen¬ 
te observables, que combinan las redes Bayesianas dinâmicas del Capitulo 15 con las 
redes de decision del Capitulo 16. 

La segunda parte del capitulo cubre entornos con mültiples agentes. En taies entor¬ 
nos, la nociôn de comportamiento ôptimo se complica mucho mas debido a las interac- 
ciones entre agentes. La Seccion 17.6 introduce las ideas principales de la teoria de 
juegos, incluyendo la idea de que los agentes racionales podrfan necesitar comportarse 
aleatoriamente. La Seccion 17.7 examina como pueden disenarse sistemas multiagente 
de forma que mültiples agentes puedan alcanzar un objetivo comün. 
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17.1 Problemas de decision secuenciales 


Un ejemplo 

Supôngase que un agente se encuentra en el entorno de 4 X 3 celdas mostrado en la Fi¬ 
gura 17.1(a). Comenzando en el estado inicial, debe elegir una accion en cada instante. 
La interacciôn con el entorno concluye cuando el agente alcanza uno de los estados ob- 
jetivos, marcados con las étiquetas +1 o — 1. En cada posicion, las acciones disponibles 
se denominan Arriba, Abajo, Izquierda y Derecha. Se supondrâ que, por el momento, 
el entorno es completamente observable, de forma que el agente siempre sabe dônde 
se encuentra. 

Si el entorno fuera determinista, la soluciôn séria fâcil: [Arriba, Arriba, Derecha, De¬ 
recha, Derecha ]. Desafortunadamente, el entorno no siempre darâ con esta soluciôn ya 
que las acciones no son fiables. El modelo concreto de movimiento estocâstico adopta- 
do se ilustra en la Figura 17.1 (b). Cada accion alcanza el efecto deseado con una proba- 
bilidad de 0,8 pero, el resto de las veces, la accion mueve al agente en una direcciôn 
perpendicular a la deseada. Ademâs, si el agente choca con una pared, permanece en la 
misma celda. Por ejemplo, partiendo de la celda inicial (1, 1), la accion Arriba mueve al 
agente a la posicion (1,2) con probabilidad 0,8, pero, con probabilidad 0,1 puede mo- 
verse a la derecha a la celda (2, 1), y con probabilidad 0,1 puede moverse a la izquierda, 
chocar con la pared, y permanecer en la posicion (1, 1). En este entorno, la secuencia [Arri¬ 
ba, Arriba, Derecha, Derecha, Derecha ] que trata de mover al agente siguiendo el con- 
torno, alcanza el estado objetivo situado en (4, 3) con una probabilidad de 0,8 5 = 0,32 768. 
También existe una pequena posibilidad de alcanzar accidentalmente el objetivo yendo 
por otro camino con una probabilidad 0, l 4 X 0,8 de modo que la probabilidad total glo¬ 
bal es de 0,32776. ( Véase también el Ejercicio 17.1.) 
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Figura 17.1 (a) Un entorno sencillo de 4 X 3 que plantea al agente un problema de decision se- 

cuencial. (b) Ilustraciôn del modelo de transition del entorno: el resultado «deseado» ocurre con 
probabilidad 0,8, mientras que con probabilidad 0,2 el agente se mueve en las direcciones perpen- 
diculares a la direcciôn deseada. Una colisiôn con la pared se traduce en la ausencia de movimiento. 
Los dos estados terminales tienen una recompensa de +1 y — 1, respectivamente, y el resto de es¬ 
tados tienen una recompensa de —0,04. 
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MODELO 
DE TRANSICIÔN 


RECOMPENSA 


PROCESO DE 
DECISION DE MARKOV 


POÜTICA 


Una especificaciôn de las probabilidades résultantes para cada accion y estado po- 
sible se denomina un modelo de transiciôn (o simplemente «modelo», cuando no haya 
lugar a dudas). Se utilizarâ la notaciôn T(s, a, s') para denotar la probabilidad de alcan- 
zar el estado résultante s' si se realiza la accion a en el estado 5 . Se considerarâ que las 
transiciones son de tipo Markov en el sentido expuesto en el Capitulo 15, es decir, la 
probabilidad de alcanzar s' a partir de s solo dépende de 5 y no de la historia de los es- 
tados anteriores. Por el momento, puede considerarse que T(s, a, s') es una gran tabla 
tridimensional que contiene probabilidades. Mas adelante, en la Secciôn 17.5 se verâ que 
el modelo de transiciôn puede representarse mediante una red Bayesiana dinàmica, vis- 
ta en el Capitulo 15. 

Para completar la definiciôn del entorno de trabajo, debe especificarse la funciôn 
de utilidad para el agente. Dado que el problema de decision es secuencial, la funciôn de 
utilidad dependerâ de la secuencia de estados (un histôrico del entorno) mas que de un 
ünico estado. Mas adelante en esta misma secciôn, se verâ cômo pueden especificarse 
en general este tipo de funciones de utilidad. Por ahora, simplemente se considéra que 
en cada estado s, el agente recibe una recompensa R(s) que puede ser positiva o nega- 
tiva, pero limitada en cualquier caso. En el ejemplo mostrado, la recompensa es —0,04 
en todos los estados salvo para los estados terminales (que tienen recompensas +1 y — 1). 
La utilidad de un histôrico del entorno es tan solo (y por ahora) la suma de las recom¬ 
pensas recibidas. Por ejemplo, si el agente alcanza el estado +1 después de 10 pasos, 
su utilidad total sera de 0,6. La recompensa negativa de —0,04 supone un incentivo para 
que el agente alcance râpidamente el estado (4, 3), de modo que nuestro entorno es una 
generalizaciôn estocâstica de los problemas de büsqueda del Capitulo 3. En otras pala¬ 
bras, el agente no se divierte viviendo en este entorno y, por lo tanto, quiere terminar el 
juego tan pronto como le sea posible. 

La especificaciôn de un problema de decision secuencial para un entorno comple- 
tamente observable, con un modelo de transiciôn de Markov y recompensas aditivas se 
denomina proceso de decision de Markov o PDM. Estos procesos se definen por los 
très componentes siguientes: 

Estado Inicial: S 0 

Modelo de Transiciôn: T(s, a, s') 

Funciôn de Recompensa 1 : R(s) 

La siguiente cuestiôn es determinar cuâl es la forma de una soluciôn al problema. Se ha 
visto que cualquier secuencia de acciones prefijada no resuelve el problema debido a que 
el agente puede terminar en un estado distinto del estado objetivo. Por lo tanto, cualquier 
soluciôn debe especificarse de modo que el agente siempre sepa qué hacer en cada es¬ 
tado posible que pueda alcanzar. Se denomina politica a una soluciôn de este tipo. Ha- 
bitualmente, se dénota por 1 r a una politica y por 77 ( 5 ) a la accion recomendada por la 
politica tt en el estado 5 . Si el agente tiene una politica compléta enfonces no importa el 
resultado de una accion, el agente siempre sabe qué hacer a continuaciôn. 


1 Algunas definiciones de los procesos de decision de Markov permiten que la recompensa dependa tam- 
bién de la accion y del resultado, de forma que la funciôn de recompensa se define como R(s, a , s'). Esto 
simplifica la descripciôn de algunos entomos pero no cambia significativamente el problema. 
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Cada vez que se ejecuta una politica dada partiendo del estado inicial, la naturaleza 
estocâstica del entorno ocasionarâ un histôrico del entorno diferente. La calidad de la 
politica se mide, por lo tanto, evaluando la utilidad esperada de los posibles histôricos 
ôptima de entorno generados por la politica. Una politica ôptima es una politica que présenta 
la mayor utilidad esperada. Se emplearâ la notaciôn 77* para denotar una polltica ôpti¬ 
ma. Dada 77*, el agente décidé qué hacer mediante la consulta de su percepciôn actual, 
que le hace saber el estado actual s y enfonces, ejecuta la acciôn 7 r*(s). Una polltica re¬ 
présenta expllcitamente la funciôn del agente y es, por lo tanto, una descripciôn de agen¬ 
te reactivo sencillo, calculado a partir de la informaciôn utilizada por un agente basado 
en utilidades. 

Una polltica ôptima para el entorno de la Figura 17.1 se muestra en la Figura 17.2(a). 
Nôtese que, dado que el coste de adoptar un paso es bastante pequeno en comparaciôn 
con la penalizaciôn de finalizar accidentalmente en el estado (4, 2), la polltica ôptima 
para el estado (3, 1) es conservadora. La polltica recomienda dar un rodeo en vez de ele- 
gir el camino directo y, por tanto, arriesgarse a caer en el estado (4, 2). 

El équilibre entre los riesgos asumidos y las recompensas obtenidas dépende del va- 
lor de R(s ) para los estados no terminales. La Figura 17.2(b) muestra pollticas ôptimas 
para cuatro rangos diferentes de R(s). Cuando R (s) < —1,6284, la vida es tan desagra- 
dable que el agente va directamente a la salida mas prôxima, incluso si ésta es el valor 
— 1. Cuando esta comprendida entre —0,4278 < R(s) < —0,0850, la vida es bastante 
desagradable; el agente toma la rata mas corta para alcanzar el estado +1 y esta dispuesto 
a arriesgarse a caer en el estado — 1 accidentalmente. En concreto, el agente toma el ata- 
jo si esta en el estado (3, 1). Solo cuando la vida es ligeramente aburrida (—0,0221 < 
R(s) < 0), la politica ôptima no toma en absoluto ningûn riesgo. En los estados (4, 1) y 
(3,2), el agente huye del estado — 1 de forma que no pueda caer en él accidentalmente, 
incluso aunque esto signifique chocar con la pared unas cuantas veces. Finalmente, si 
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Figura 17.2 (a) Una politica ôptima para el entorno estocâstico con R(s) = —0,04 para los no- 

dos no terminales, (b) Pollticas optimas para cuatro rangos diferentes de R(s). 
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R(S) > 0, la vida es tan agradable que el agente évita ambas salidas. En tanto en cuan- 
to que las acciones para los estados (4, 1), (3, 2) y (4, 2) son las que se muestran, toda 
politica es optima y el agente obtiene una recompensa total infinita ya que nunca alcanza 
un estado terminal. Sorprendentemente, ello conduce a que existan otras seis politicas 
ôptimas para varios rangos de R(s). En el Ejercicio 17.7 se pide encontrarlos. 

El cuidadoso balance entre riesgo y recompensa es una caracteristica de los proce- 
sos de decision de Markov que no aparecen en los problemas de büsqueda determinis- 
ta; ademâs, es una caracteristica de muchos problemas de decision del mundo real. Por 
esta razôn, los procesos de decision de Markov se han estudiado en diferentes âmbitos 
que incluyen la IA, la investigaciôn operativa, la economia y la teorfa de control. Se han 
propuesto multitud de algoritmos para calcular politicas ôptimas. En las Secciones 17.2 
y 17.3 se describirân dos de las mas importantes familias de algoritmos. Sin embargo, 
primero se compléta la révision sobre las funciones de utilidad y las politicas para los 
problemas de decision secuenciales. 


Optimalidad en problemas de decision secuenciales 


H0RIZ0NTE FINITO 

H0RIZ0NTE INFINITO 



POLITICA NO 
ESTACIONARIA 


POLITICA 

ESTACIONARIA 


En el ejemplo de PDM de la Figura 17.1, el rendimiento del agente se midiô mediante 
la suma de las recompensas de los estados visitados. Esta elecciôn de medida de rendi¬ 
miento no es arbitraria pero tampoco es la ünica posible. En esta secciôn se examinan 
las posibles elecciones para evaluar el rendimiento (es decir, diferentes funciones de uti¬ 
lidad sobre histôricos de entornos, que se escribirân como U h ([s 0 , s v ..., sJ)). Esta sec¬ 
ciôn recurre a las ideas del Capitulo 16 y es un tanto técnica; los puntos principales se 
resumen al final. 

La primera cuestiôn a responder es si se tiene un horizonte finito o un horizon- 
te infinito para la toma de decisiones. Un horizonte finito significa que hay un tiem- 
po prefijado N, después del cual, no importa nada (el juego ha concluido, hablando 
informalmente). Por lo tanto, U h ([s 0 , s v ..., s Ar + J) = f/ A ([5 0 , s v ..., s^]) para todo 
k > 0. Por ejemplo, supôngase que el agente comienza en la posiciôn (3,1) en el mun¬ 
do de 4 X 3 casillas de la Figura 17.1 y que N = 3. Enfonces, para tener una oportu- 
nidad de alcanzar el estado +1, el agente debe ir directamente hacia él y la acciôn 
optima es moverse Arriba. Por otro lado, si N = 100, enfonces se tiene el tiempo su- 
ficiente como para ir por la ruta segura mediante un movimiento a la Izquierda. Por 
lo tanto, con un horizonte finito, la acciôn optima para un estado dado puede cam- 
biar a lo largo del tiempo. Decimos que la politica optima para un horizonte finito es 
no estacionaria. Por otra parte, sin una limitaciôn establecida de tiempo, no hay ra¬ 
zôn de comportarse de manera diferente en los mismos estados, en diferentes instan¬ 
tes de tiempo. Por lo tanto, la acciôn optima solo dépende del estado actual y la 
politica optima es estacionaria. Las politicas para el caso de un horizonte infinito son 
por la tanto mas sencillas que las politicas para el caso de un horizonte finito, y en este 
capitulo se tratarâ principalmente con el caso de un horizonte infinito 2 . Nôtese que «ho- 


2 Esto es para entornos observables por completo. Posteriormente se verâ que para entornos parcialmente ob¬ 
servables, el caso de un horizonte infinito no es tan sencillo. 
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PREFERENCIA 

ESTACIONARIA 


RECOMPENSAS 

ADITIVAS 


rizonte infinito» no significa necesariamente que todas las secuencias de estados son 
infinitas; tan solo significa que no existe un plazo determinado y prefijado. En con¬ 
crète, puede haber secuencias de estados finitas en un PDM con un horizonte infini¬ 
to que contenga un estado terminal. 

La siguiente cuestiôn que debe decidirse es cômo calcular la utilidad de las secuen¬ 
cias de estados. Puede abordarse el problema al estilo de la teorfa de la utilidad mul- 
tiatributo ( véase Secciôn 16.4), donde cada estado y se ve como un atributo de la 
secuencia de estados [,v (1 , s v s 2 , ...]. Para obtener una expresiôn sencilla en términos de 
los atributos, se necesita adoptar alguna ordenaciôn relativa a la hipôtesis de indepen- 
dencia de preferencia. La hipôtesis mas natural es que las preferencias del agente res¬ 
pecte a las secuencias de estados sean estacionarias. El carâcter estacionario de las 
preferencias significa lo siguiente: si dos secuencias de estados [.v 0 , s v s 2 , ...] y [.v' 0 , s' v 
s' 2 , ...] comienzan desde el mismo estado (es decir, .s 0 = s' 0 ) entonces las dos secuen¬ 
cias deberian estar ordenadas, en relaciôn con la preferencia, del mismo modo que las 
secuencias [s,, s 2 , ...] y [s'j, s' 2 , ...]. En lenguaje coloquial, esto significa que si se co- 
menzase manana prefiriendo un estado future frente a otro, entonces si se comenzase hoy, 
se mantendria esa misma preferencia. La preferencia estacionaria es una hipôtesis con 
apariencia bastante inocua pero con consecuencias muy fuertes de las que se desprende 
que, bajo esta hipôtesis, solo hay dos formas de asignar utilidades a las secuencias: 

1. Recompensas aditivas: la utilidad de una secuencia de estados es 
U h (K Sp S 2 , ...]) = R(s 0 ) + RisJ + R(s 2 ) + ... 


RECOMPENSAS 

DEPRECIATIVAS 


FACTOR DE 
DESCUENTO 


El mundo de 4 X 3 de la Figura 17.1 utiliza recompensas aditivas. Nôtese que 
la adicion se utilizo implicitamente en el uso de las funciones de coste de rutas 
que se hizo en los algoritmos de büsqueda heurfstica (Capitulo 4). 

2. Recompensas depreciativas: la utilidad de una secuencia de estados es 

U h ([s 0 , s v s 2 ,...]) = R(s 0 ) + yR(s t ) + r R (h) + ... 

donde el factor de descuento y es un nümero entre 0 y 1. El factor de descuento 
représenta la preferencia de un agente por las recompensas actuales frente a las 
futuras. Cuando y es prâcticamente 0, las recompensas en un future lejano se 
consideran insignificantes. Cuando y es 1, las recompensas depreciativas son 
exactamente équivalentes a las recompensas aditivas de modo que las recom¬ 
pensas aditivas son un caso particular de las recompensas depreciativas. El des¬ 
cuento se révéla como un buen modelo de las preferencias animales y humanas 
a lo largo del tiempo. Una tasa de descuento con valor y es équivalente a una 
tasa de interés del ( 1 / y) ~ 1 • 


Por razones que râpidamente se aclararân, se considerarâ el uso de recompensas de¬ 
preciativas en lo que resta del capitulo, aunque en algunas ocasiones puede conside- 
rarse que y = 1. 

Bajo la elecciôn de horizontes infinitos esta latente un problema: si en el entorno no 
hay un estado terminal o si el agente nunca lo alcanza, entonces todos los histôricos del 
entorno tendrân longitud infinita y las utilidades con recompensas aditivas serân, por lo 
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POLITICA APROPIADA 


RECOMPENSA MEDIA 


general, infinitas. Puede convenirse que un valor de utilidad de +°o es mejor que — °° 
pero, comparar dos secuencias, ambas con una utilidad +°°, es mas complicado. Exis- 
ten très soluciones, dos de las cuales ya se han visto: 

1. Con recompensas depreciativas, la utilidad de una secuencia infinita es finita. 
De hecho, si las recompensas estân limitadas por R mix y y < 1, se tiene 

00 CO 

U h ([s 0 , s x , s 2 , ...]) = S y'R(s t ) < V y >R mix = R m J( 1 - y) (17.1) 

t = 0 t = 0 

empleando la expresiôn de la suma de los términos de una sérié geométrica in¬ 
finita. 

2. Si el entorno présenta estados terminales y si el agente tiene garantias de al- 
canzar uno de ellos eventualmente, enfonces nunca se necesitarâ comparar se¬ 
cuencias infinitas. Una politica que garantiza alcanzar un estado terminal se 
dice que es una politica apropiada. Con politicas apropiadas, puede consi- 
derarse que y = 1 (es decir, recompensas aditivas). Las très primeras politi¬ 
cas mostradas en la Figura 17.2(b) son apropiadas mientras que la cuarta no. 
Esta ültima politica obtiene una recompensa global infinita manteniéndose le- 
jos de los estados terminales, siempre y cuando, la recompensa para un esta¬ 
do no terminal sea positiva. La existencia de politicas impropias puede 
ocasionar que los algoritmos habituales de resoluciôn de procesos de decision 
de Markov fallen con recompensas aditivas, por lo que se tiene una buena ra- 
zôn de emplear recompensas depreciativas. 

3. Otra posibilidad es comparar secuencias infinitas en funcion de la recompen¬ 
sa media obtenida en cada paso. Supongase que la posicion (1, 1) en el mundo 
de 4 X 3 tiene una recompensa de 0,1 mientras que los otros estados no termi¬ 
nales tienen una recompensa de 0,01. Entonces una politica que establezca per- 
manecer en la posicion (1,1) tendra una recompensa media mayor que cualquiera 
que establezca permanecer en otro sitio. La recompensa media es un criterio ütil 
para algunos problemas, pero el anâlisis de los algoritmos basados en recom¬ 
pensas médias superan el âmbito de este libro. 


Resumiendo, la utilizaciôn de recompensas depreciativas presentan las menores difi- 
cultades a la hora de evaluar una secuencia de estados. El paso final es mostrar como 
elegir entre politicas, teniendo en mente que una politica dada 77 no généra una se¬ 
cuencia de estados sino un rango compléta de secuencias de estados, cada uno con una 
probabilidad concreta, determinada por el modelo de transiciôn para el entorno. Por 
lo tanto, el valor de una politica es la suma esperada de las recompensas depreciati¬ 
vas obtenidas, donde la esperanza se toma sobre todas las posibles secuencias de es¬ 
tados que pueden darse, cuando se ejecuta la politica. Una politica optima 77* vendra 
dada por 


77 


* 


argmax E 

TT 


1 y 'R(s t ) 


7 T 


(17.2) 


Las dos secciones siguientes describen algoritmos para encontrar politicas ôptimas. 
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17.2 


1TERACIÔN DE 
VALORES 


Iteracion de valores 


En esta secciôn se présenta un algoritmo, denominado iteracion de valores, para el câl- 
culo de una poiftica ôptima. La idea bâsica es la de calcular la utilidad de cada estado y 
utilizar estas utilidades para seleccionar la accion ôptima en cada estado. 


Utilidades de los estados 


La utilidad de los estados se define en funciôn de la utilidad de las secuencias de estados. 
Informalmente hablando, la utilidad de un estado es la utilidad esperada de las secuencias 
de estados que le pueden seguir. Obviamente, las secuencias de estados dependen de la po- 
litica que se ejecute, de modo que se comienza definiendo la utilidad U 71 (s) en relaciôn con 
una politica concreta tt. Sea s t el estado en el que se encuentra el agente después de eje- 
cutar 7 t durante t pasos (nôtese que s t es una variable aleatoria), entonces se tiene que 


U\s) = E 


S y'R{s t ) 


^0 s 


(17.3) 


Dada esta definiciôn, la utilidad real de un estado, que se escribe como U(s), es justo U n *(s) 
(es decir, la suma esperada de recompensas depreciativas si el agente ejecutase una poli¬ 
tica ôptima). Nôtese que U(s) y R(s) son cantidades muy diferentes; R(s) es la recompensa 
«a corto plazo» por estar en el estado s, mientras que U (s) es la recompensa total «a lar¬ 
go plazo» por procéder partiendo de s. LaLigura 17.3 muestra las utilidades para el mun- 
do de 4 X 3 celdas. Nôtese que las utilidades son mayores para los estados mas prôximos 
al estado terminal +1, dado que se requieren menos pasos para alcanzar la salida. 

La funciôn de utilidad U (s) permite al agente, mediante el empleo del principio de 
Mâxima Utilidad Esperada introducido en el Capitulo 16, elegir la accion que maximi- 
ce la utilidad esperada del estado résultante: 


tt*(s) = argmax X T(s, a, s’)U{s’) (17.4) 
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Figura 17.3 Las utilidades de los estados en el mundo 4X3, calculadas para y = 1 y una ré¬ 
compensa R(s) = —0,04 para los estados no terminales. 
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ECUACIÔN 
DE BELLMAN 


ACTUALIZACIÔN 
DE BELLMAN 


Ahora, si la utilidad de un estado es la suma de las recompensas depreciativas desde ese 
punto en adelante, enfonces hay una relaciôn directa entre la utilidad de un estado y la 
utilidad de sus vecinos: la utilidad de un estado es la recompensa inmediata para ese 
estado mâs la utilidad depreciada y esperada del siguiente estado, considerando que el 
agente elige la acciôn ôptima. Es decir, la utilidad de un estado viene dada por 

U(s) = R(s) + y mâx X T(s, a, s')U(s') (17.5) 

a s ' 

La Ecuaciôn (17.5) se conoce como ecuaciôn de Bellman, en honor a Richard Bellman 
(1957). Las utilidades de los estados (definidos por la Ecuacion (17.3) como la utilidad 
esperada de las secuencias résultantes de estados) son soluciones del conjunto de ecua- 
ciones de Bellman. De hecho, son las ûnicas soluciones, como se verâ en las dos si- 
guientes secciones. 

A continuaciôn, se muestra una de las ecuaciones de Bellman para el mundo de 4 X 3. 
La ecuacion para el estado (1, 1) es 

U{ 1, 1) = -0,04 + ymâx { 0,877(1, 2) + 0,177(2, 1) + 0,lt/(l, 1), (Arriba) 

0,917(1, 1) + 0,177(1, 2), (Izquierda) 

0,9C/(1, 1) + 0,117(2, 1), (. Derecha) 

0,817(2, 1) + 0,177(1, 2) + 0,117(1, 1) ) (Arriba) 

Cuando se consideran los valores de la Figura 17.3, se tiene que la acciôn Arriba es la 
mejor. 

El algoritmo de iteraciôn de valores 

La ecuaciôn de Bellman es la base del algoritmo de iteraciôn de valores para la resolu- 
ciôn de procesos de decision de Markov. Si se tienen n estados posibles enfonces exis- 
ten n ecuaciones de Bellman, una para cada estado. Las n ecuaciones presentan n 
incôgnitas (las utilidades de los estados). Por lo tanto deberfa resolverse simultâneamente 
el sistema de ecuaciones para obtener las utilidades. Hay un problema anadido: las 
ecuaciones son no lineales puesto que la operaciôn «mâx» es una operaciôn no lineal. 
Mientras que los sistemas de ecuaciones lineales pueden resolverse râpidamente utili- 
zando técnicas del âlgebra lineal, los sistemas de ecuaciones no lineales son mâs pro- 
blemâticos. Una posible via de abordar su resoluciôn es una aproximaciôn iterativa. 
Comenzando con unos valores iniciales cualesquiera para las utilidades, se calcula la par¬ 
te derecha de la ecuaciôn obteniéndose un nuevo valor de utilidad para el término de la 
izquierda de la ecuaciôn (actualizândose de este modo las utilidades de cada estado a 
partir de las utilidades de sus vecinos). Se repite el proceso hasta alcanzar un estado de 
equilibrio. Sea U {s) el valor de utilidad para el estado 5 en la z-ésima iteraciôn. El cuer- 
po de la iteraciôn, denominado actualizaciôn de Bellman, viene dado por la siguiente 
asignaciôn: 

U 1+] (s)^R(s) + y mâx Z T(s, a, s')U,(s') (17.6) 

a s' 

Si se aplica la actualizaciôn de Bellman indefinidamente, estâ garantizado alcanzar un 
estado de equilibrio (véase la subsecciôn siguiente), en cuyo caso los valores de utili- 
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dad finales deberfan ser las soluciones de las ecuaciones de Bellman. De hecho, son tam- 
bién las unicas soluciones, y la politica asociada (obtenida empleando la Ecuacion 
(17.4)) es ôptima. El algoritmo, identificado por la étiqueta Iteraciôn-Valores, se 
muestra en la Figura 17.4. 


funciôn Iteraciôn-Valores (pdm, e) devuelve una funciôn de utilidad 

entradas: pdm, un PDM con estados S, modelo transiciôn T, funciôn recompensa R, 
descuento y 

e, error mâximo permitido en la utilidad de cualquier estado 
variables locales: U, U', vectores de utilidad para los estados de S, inicialmente cero 

8, cambio mâximo en la utilidad de cualquier estado en una iteraciôn 

repetir 

U*~ U': 0 

para cada estado 5 de S hacer 

U'(s) •«— [s 1 ] + y mâx X T(s, a, Vlt/ls'] 

“ s' 

si |f/'[s] - t/|>]| > Sentonces ô <— | C7' [s 1 ] — t/[.v]| 
hasta 8 < e(l - y)/y 
devolver U 


Figura 17.4 El algoritmo de iteraciôn de valores para el câlculo de las utilidades de los estados. 
La condiciôn de terminaciôn se obtiene a partir de la Ecuacion (17.8) 


Puede aplicarse la iteraciôn de valores al mundo de 4 X 3 de la Figura 17.1 (a). Co- 
menzando con los valores iniciales igual a cero, las utilidades evolucionan de la forma 
que se muestra en la Figura 17.5(a). Nôtese cômo los estados que se encuentran a dife- 
rentes distancias del estado (4,3) acumulan recompensas negativas hasta que, en un de¬ 



là) 



Factor de descuento y 


(b) 


Figura 17.5 (a) Grâfico que ilustra la evoluciôn de las utilidades de los estados seleccionados, 

empleando la iteraciôn de valores. (b) El numéro de iteraciones k necesarias para garantizar un error 
mâximo e = c • R mix , para diferentes valores de c y en funciôn del factor de descuento y. 
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CONTRACCIÔN 


NORMADEL MÀXIMO 


terminado punto, se encuentra un camino hacia el estado (4,3), momento en el cual, las 
utilidades comienzan a incrementarse. Puede pensarse que el algoritmo de iteracion de 
valores funciona como un propagador de information a través del espacio de estados, 
mediante cambios locales. 

Convergencia de la iteracion de valores 

Se ha dicho que la iteracion de valores converge finalmente a un ünico conjunto de 
soluciones de las ecuaciones de Bellman. En esta seccion se explica por qué ocurre 
esto. A lo largo de la argumentaciôn, se introducirân algunas ideas matemâticas uti¬ 
les y se obtendrân algunos métodos para evaluar el error en la funcion de utilidad de- 
vuelta cuando el algoritmo termina prematuramente; esto es ütil puesto que significa 
que el algoritmo no tendra que ejecutarse indefinidamente. Esta seccion es bastante 
técnica. 

El concepto bâsico utilizado en la demostraciôn de que el proceso iterativo conver¬ 
ge es la nociôn de contracciôn. Informalmente hablando, una contracciôn es una fun- 
ciôn de un argumenta que, cuando sucesivamente se aplica sobre dos argumentas 
diferentes, da como resultado otros dos valores que estân «mas prôximos entre si» que 
los valores originales, al menos en una cantidad constante. Por ejemplo, la operaciôn «di¬ 
vision entre dos» es una contracciôn ya que, después de dividir dos nümeros cualesquiera 
entre dos, su diferencia se ha dividido por dos. Nôtese que la funcion «dividir entre dos» 
tiene un punto fijo, el valor cero, que no sufre modificaciôn alguna por la aplicaciôn de 
la funcion. A partir de este ejemplo, pueden discernirse dos propiedades importantes de 
las contracciones: 

• Una contracciôn tiene ünicamente un punto fijo; si fueran dos los puntos fijos, és- 
tos no podrian acercarse cuando se aplicase la funcion, y ésta no séria una con¬ 
tracciôn. 

• Cuando la funcion se aplica a cualquier argumento, el valor debe acercarse a un 
punto fijo (ya que éste punto no se mueve) por lo que repetidas aplicaciones de 
una contracciôn siempre alcanzan el punto fijo en el limite. 

Ahora, supôngase que la actualizaciôn de Bellman (Ecuaciôn 17.6)) se ve como un ope- 
rador B que se aplica simultâneamente para actualizar la utilidad de cada estado. Se 
denotarâ por U i el vector de utilidades de todos los estados en la /-ésima iteracion. En¬ 
fonces la ecuaciôn de la actualizaciôn de Bellman puede escribirse en forma vectorial 
como 

U, + l ^BU, 

A continuaciôn, se necesita un mecanismo para medir distancias entre vectores de uti¬ 
lidad. Se utilizarâ la norma del mâximo, que mide la longitud de un vector por la lon- 
gitud de su componente mayor: 

||t/|| = mâx \U(s)\ 

S 

Con esta definiciôn, la «distancia» entre dos vectores es la diferencia mâxima entre dos 
componentes cualesquiera que ocupen la misma posiciôn dentro del vector de utilida- 
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des. El resultado principal de esta secciôn es el siguiente: Sea U l y U\ dos vectores de 
utilidad cualesquiera, enfonces tenemos 

||5 U, - B U\ Il < y II U, ~ U; Il (17.7) 

Es decir, la actualizaciôn de Bellman es una contracciôn por un factor y sobre el espa- 
cio de vectores de utilidad. Por lo tanto, la iteracion de valores siempre converge a una 
ünica soluciôn de las ecuaciones de Bellman. 

En concreto, puede reemplazarse en la Ecuacion (17.7) por las utilidades verdade- 
ras U, para las cuales B U = U. Enfonces obtenemos la desigualdad 

||B U, - U || < y|| Ut ~ U || 

Asi que, si se considéra el término como el error de la estimaciôn U t , se ve que el error 
se reduce al menos en un factor y en cada iteracion. Esto significa que la iteracion de 
valores converge exponencialmente. Puede calcularse el nümero de iteraciones necesa- 
rias para alcanzar una cota de error e especifica como sigue. Primero, de la Ecuacion 
(17.1) se tiene que las utilidades de todos los estados estân acotadas por ±R mi J( 1 — y). 
Esto significa que el mâximo error inicial ||£/ 0 — U\\ < 2R méx /(l — y). Suponiendo que 
N es el nümero de iteraciones necesarias para no superar la cota de error dada por e, en¬ 
fonces, dado que el error se reduce en al menos una cantidad yen cada iteracion, se ne- 
cesita que y N ■ 2R mi J ( 1 — y) < e. Tomando logaritmos, se tiene que 

N = [log(2/? mâx /e(l - y))/log(l/y)] 

es el nümero de iteraciones suficientes. La Figura 17.5(b) muestra como varia A en re- 
laciôn con y, para diferentes valores de la proporciôn e//? mâx . La buena noticia es que, 
debido a la râpida convergencia, N no dépende excesivamente de la proporciôn e//? mâx . 
La mala noticia es que N crece râpidamente conforme y se aproxima a 1. Puede lograr- 
se una convergencia mas râpida si se hace que y sea pequeno, lo que se consigue real- 
mente es que el agente tenga un horizonte mas corto, por lo que pueden obviarse los 
efectos de las acciones del agente a largo plazo. 

La cota de error establecida en el pârrafo precedente da una ida de los factores que 
influyen en el tiempo de ejecuciôn del algoritmo, pero es un criterio de parada conser- 
vador algunas veces. Para obtener una condiciôn de parada mas flexible, puede emplearse 
el limite que relaciona el error con el tamano de la actualizaciôn de Bellman, para una 
iteracion cualquiera. A partir de la propiedad de contracciôn (Ecuacion (17.7)), puede 
demostrarse que, si la modificaciôn es pequena (es decir, no cambia mucho la utilidad 
de un estado), enfonces el error, en comparaciôn con la funciôn de utilidad verdadera, 
es también pequeno. De forma mas précisa, 

si||f/ I + i — U l -|| < e(l - y)/y enfonces \\U i + , — U\\ < e (17.8) 

Esta es la condiciôn de terminaciôn utilizada por el algoritmo Iteraciôn-Valores mos- 
trado en la Figura 17.4. 

Hasta ahora, se ha analizado el error de la funciôn de utilidad devuelta por el algo¬ 
ritmo de iteracion de valores. Sin embargo, de lo que realmente debepreocuparse el agen¬ 
te es de lo bien que actuarâ si toma sus decisiones con base en esta funciôn de utilidad. 
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PÉRDIDA DE 
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Supôngase que después de i iteraciones del algoritmo, el agente tiene una estimacion 
{/, para la utilidad verdadera U y obtiene la polftica MUE 77, mediante la anticipaciôn 
de un paso, en funcion de U i (como en la Ecuaciôn (17.4)). ^E1 comportamiento ré¬ 
sultante sera tan bueno como el comportamiento ôptimo? Esta es una pregunta cru¬ 
cial para cualquier agente real y résulta que la respuesta es que si. Si U' n ‘(s) es la utilidad 
obtenida si se ejecuta 77, partiendo del estado s, y se define la pérdida de la polftica, 
\\U n ‘ — U||, como la mayor cantidad que el agente puede perder por la ejecuciôn de 
77, en vez de la polftica ôptima 77*. La pérdida de la polftica 77, esta relacionada con el 
error en U, mediante la siguiente desigualdad: 

si || Uj — U\\ < € entonces || U 771 — U || < 2ey/(l — y) (17.9) 

En la prâctica, a menudo se tiene que 77, se convierte en la polftica ôptima bastante an¬ 
tes de que [/, converja. La Figura 17.6 muestra como el error mâximo en U i y el error 
en la pérdida de la polftica se aproximan a cero, conforme avanza el proceso iterativo, 
para el entorno de 4 X 3 celdas con y = 0,9. La polftica 77, es ôptima cuando i = 4, aun- 
que el error mâximo de U, es aün de 0,46. 



Numéro de iteraciones 


Figura 17.6 El error mâximo ||t/, — i/|| en las estimaciones de los valores de utilidad y la pérdi¬ 
da de la polftica || U 1 " — t/|| comparada con la polftica ôptima, en funcion de las iteraciones dadas 
por el algoritmo de iteraciôn de valores 


En este punto, se dispone de todo lo necesario para utilizar la iteraciôn de valores 
en la prâctica. Se sabe que converge a los valores de utilidad correctos, puede limi- 
tarse el error en la estimacion de la utilidad si el algoritmo se para después de un nü- 
mero finito de iteraciones y puede limitarse la pérdida de la polftica résultante de 
ejecutar la polftica derivada del principio de mâxima utilidad esperada. Un comenta- 
rio final se refiere a que todos los resultados de esta secciôn estân condicionados a que 
la tasa de descuento sea menor que 1 (y < 1). Si y = 1 y en el entorno se tienen es- 
tados terminales, entonces puede derivarse un conjunto similar de resultados sobre la 
convergencia y los limites del error, siempre que se satisfagan determinadas condiciones 
técnicas. 
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17.3 Iteracion de politicas 


ITERACION 
DE POLITICAS 


EVALUACIÔN DE 
LA POLITICA 


MEJORA DE 
LA POLITICA 


En la seccion anterior, se observé que es posible alcanzar una politica optima, incluso 
cuando la estimacion de la funcion de utilidad es imprecisa. Si una accion es claramen- 
te mejor que todas las restantes entonces las magnitudes exactas de las utilidades de los 
estados involucrados no necesitan ser précisas. Esta vision sugiere una via alternativa a 
la hora de encontrar politicas optimas. El algoritmo de iteracion de politicas alterna los 
dos pasos siguientes, partiendo de alguna politica inicial 7 r 0 : 

• Evaluaciôn de la politica: dada una politica 7r ( , calcular U i = U n ‘, la utilidad de 
cada estado si tt fuese ejecutada. 

• Mejora de la politica: calcular una nueva politica tt i + j con base en la aplicacion 
del principio de MUE, empleando la anticipaciôn de un paso en funcion de {/, (como 
en la Ecuacion (17.4)). 


El algoritmo concluye cuando la etapa de mejora del algoritmo no produce un cambio 
en las utilidades. En este punto, se sabe que la funcion de utilidad U i es un punto fijo de 
la actualizacion de Bellman, por lo que es una solucion de las ecuaciones de Bellman, 
y que 7 r ; debe ser una politica optima. Dado que para un espacio finito de estados hay 
un conjunto finito de politicas y que, en cada iteracion, puede demostrarse que se me¬ 
jora la politica, necesariamente, la iteracion de politicas debe concluir. El algoritmo se 
muestra en la Figura 17.7. 


funcion Iteraciôn-Polîticas (pdm ) devuelve una politica 
entradas: pdm, un PDM con estados S, modelo transicion T 
variables locales: U, U', vectores de utilidad para los estados S, inicialmente cero 

tt, un vector de politicas indexado por estado, inicialmente al azar 

repetir 

U *— Evaluaciôn-Polîtica(77, U, pdm) 
sincambiosl *— verdadero 
para cada estado v de S hacer 

si mâx a X T(s, a, v')f/[v'] > X T(s, 7r[j], v')C/[^'] entonces 

S ' _ S ' 

7r[s] argmax^X T(s, a, s')U[s'] 

S ' 

sin cambiosl *— falso 
hasta sin cambiosl 

devolver P 


Figura 17.7 El algoritmo de iteracion de politicas para el câlculo de una politica optima. 


La etapa de mejora de la politica es obviamente sencilla pero, /como implementar 
la mtina Evaluaciôn-Poütica? Pues bien, résulta que hacerlo résulta mucho mas sim¬ 
ple que resolver las ecuaciones de Bellman normales (que es lo que la iteracion de va- 
lores realiza), ya que la accion en cada estado esta fijada por la politica. En la i-ésima 
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ITERACIÔN 
DE POLITICAS 
MODIFICADA 


ITERACIÔN 
DE POLITICAS 
ASINCRONA 


iteraciôn, la polltica 7T i détermina la accion 7T i (s) en el estado s. Esto significa que se tie- 
ne una version simplificada de la ecuacion de Bellman (17.5) que relaciona la utilidad 
del estado s (bajo la polltica 77.) con las utilidades de sus vecinos: 

U .(s) = R(s ) +rS T(s, 77,. (s), s')U,{s') (17.10) 

s' 

Por ejemplo, supôngase que 77, es la polltica mostrada en la Figura 17.2(a). Entonces se 
tiene que 77,(1, 1) = Arriba, 77,(1, 2) = Arriba, y as! sucesivamente. Las ecuaciones de 
Bellman simplificadas son 

£7,(1, 1) = 0,8 U, (1, 2) + 0,1 U, (1, 1) + 0,1 £7, (2, 1) 

£7,(1, 2) = 0,8 £7,(1, 3) + 0,2 £7, (1, 2) 


La cuestiôn importante es que estas ecuaciones son lineales, puesto que se ha elimina- 
do de ellas el operador «mâx». Para n estados, se tienen n ecuaciones lineales con n in- 
côgnitas, que pueden resolverse exactamente en un tiempo del orden de 0(n 3 ) mediante 
métodos normales del âlgebra lineal. 

Para espacios de estados pequenos, la evaluaciôn de la polltica empleando los mé¬ 
todos de soluciôn exacta son a menudo la aproximacion mas eficiente. Para grandes es¬ 
pacios de estados, un tiempo de ejecuciôn del orden de 0(n 3 ) puede ser prohibitivo. 
Afortunadamente, no es necesario evaluar exactamente la polltica. En su lugar, puede 
realizarse un nümero limitado de pasos simplificados de la iteraciôn de valores (simpli- 
ficado porque la polltica esta fijada) para obtener una aproximacion razonablemente bue- 
na de las utilidades. La actualizaciôn de Bellman simplificada para este proceso viene 
dada por la siguiente asignaciôn: 

U i + l (s)<-R(s) +yS T(s, 77,(5), 5') £7,(5') 

s' 

y se repite k veces para producir la siguiente estimaciôn de los valores de utilidad. El al- 
goritmo résultante se denomina iteraciôn de politicas modificada. A menudo, es mu- 
cho mas eficiente que la iteraciôn de politicas estândar o que la iteraciôn de valores. 

El algoritmo descrito hasta ahora necesita actualizar el valor de utilidad o la poli- 
tica para todos los estados al mismo tiempo. Esto no es estrictamente necesario. De 
hecho, en cada iteraciôn, puede elegirse cualquier subconjunto de estados y aplicar 
cualquier tipo de actualizaciôn (mejora de la polltica o iteraciôn de valores simplifi¬ 
cada) a este subconjunto. Esta version mas general del algoritmo se denomina itera¬ 
ciôn de politicas asincrona. Bajo ciertas condiciones sobre la polltica inicial y la 
funciôn de utilidad, esta garantizado que la iteraciôn de politicas asincrona converge 
hacia la polltica ôptima. La libertad de elegir cualquier subconjunto de estados con los 
que trabajar significa que pueden disenarse algoritmos heurfsticos mucho mas eficientes 
(por ejemplo, algoritmos que se concentren en actualizar los valores de los estados que 
son mas probables de alcanzarse por una buena polltica). Esto tiene mucho sentido en 
la vida real: si uno no tiene intenciôn de arrojarse por un precipicio, uno no deberia 
perder tiempo en preocuparse por el valor exacto de la utilidad de los estados résul¬ 
tantes. 




712 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


17.4 Procesos de decision de Markov parcialmente 
observables 


PDM OBSERVABLE 
PARCIALMENTE 


La descripciôn de los procesos de decision de Markov hecha en la Secciôn 17.1 asume 
que el entorno era completamente observable. Bajo esta hipotesis, el agente siempre 
sabe el estado en el que se encuentra. Esto, combinado con la hipotesis de Markov en 
cuanto al modelo de transiciôn, se traduce en que la politica ôptima solo dépende del 
estado actual. Cuando el entorno solo es observable parcialmente, uno podria decir que 
la situaciôn es mucho menos clara. El agente no conoce necesariamente en qué estado 
se encuentra, por lo que no puede ejecutar la accion tt(s) recomendada para ese estado. 
Ademâs, la utilidad de un estado 5 y la accion ôptima en el estado 5 no solo dependen 
de s, sino que también dependen de lo que el agente conozca cuando se encuentre en el 
estado 5. Por estas razones, los procesos de decision de Markov parcialmente obser¬ 
vables (PDMPO) son habitualmente mucho mas complicados que los procesos de de¬ 
cision de Markov normales. Por otro lado, este tipo de procesos no se pueden obviar ya 
que el mundo real es un ejemplo de ellos. 

Como ejemplo, considérese otra vez el mundo de 4 X 3 celdas descrito en la Fi¬ 
gura 17.1, pero ahora supôngase que el agente no tiene sensores de ninguna clase y 
que no tiene ni idea de dônde se encuentra. De forma mas précisa, supôngase que cual- 
quiera de los nueve estados no terminales tienen la misma probabilidad de ser el es¬ 
tado inicial (Figura 17.8(a)). Claramente, si el agente conociese que esta en la posiciôn 
(3,3), se moveria a la Derecha; si el agente supiese que esta en la posiciôn (1,1), se 
moveria Arriba. Ahora bien, como puede estar en cualquier posiciôn, ^qué haria el 
agente? Una respuesta posible es que el agente, en un primer momento, actuaria con 
el fin de reducir su incertidumbre y solo enfonces trataria de dirigirse hacia la salida 
+ 1. Por ejemplo, si el agente se mueve a la Izquierda cinco veces enfonces es bas- 
tante probable que se encuentre junto a la pared izquierda (Figura 17.8(b)). Si des- 
pués se mueve Arriba otras cinco veces es probable que se encuentre en la parte 
superior, probablemente, en la esquina superior izquierda (Figura 17.8(c)). Por ülti- 
mo, si se mueve cinco veces a la Derecha tiene una probabilidad considérable (alre- 
dedor de un 77,5 por ciento) de alcanzar el estado terminal +1 (Figura 17.8(d)). Si a 



Figura 17.8 (a) Distribucion de probabilidad inicial acerca de la localizacion del agente, (b) Des- 

pués de moverse cinco veces a la Izquierda. (c) Después de moverse cinco veces Arriba. (d) Después 
de moverse cinco veces a la Derecha. 
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partir de enfonces continua moviéndose a la derecha, incrementarâ sus posibilidades 
hasta un 81,8 por ciento. Por lo tanto, esta politica es sorprendentemente segura, pero 
si la adoptase, el agente séria bastante lento en alcanzar la salida y tendria una utili- 
dad esperada de tan solo 0,08, aproximadamente. La politica ôptima, que se descri- 
birâ en breve, lo hace mucho mejor. 

Para tratar con procesos de decision de Markov parcialmente observables, prime- 
ro deben definirse de forma apropiada. Un PDMPO tiene los mismos elementos que 
un PDM (el modelo de transiciôn T(s, a, s') y la funciôn de recompensa Ris)), pero tie¬ 
ne, ademâs, un modelo de observaciôn 0(s, o) que détermina la probabilidad de per- 
cibir la observaciôn o en el estado s 3 . Por ejemplo, un agente sin sensores solo dispone 
de una posible observaciôn (la observaciôn vacia) y ésta ocurre con probabilidad 1 en 
cada estado. 

En los Capitulos 3 y 12, cuando se estudiaron los problemas de planificaciôn no de- 
terministas y observables parcialmente, se identificô el estado de creencia (el conjun- 
to de estados actuales en los que el agente podria estar) como un concepto clave para 
describir y calcular las soluciones. Con los procesos de decision de Markov parcialmente 
observables, se modifica un poco este concepto. Un estado de creencia b es ahora una 
distribution de probabilidad sobre todos los posibles estados. Por ejemplo, el estado de 
creencia inicial de la Figura 17.8(a) puede escribirse como (|-, j, j, j, 0, 0). 

Mediante b(s ) se denotarâ la probabilidad asignada al estado actual s por el estado de 
creencia b. El agente puede calcular su estado de creencia actual como la distribuciôn 
de probabilidad condicionada sobre los estados actuales, conocida la secuencia de ob- 
servaciones y acciones realizadas hasta ahora. Esencialmente, ésta es la tarea de filtra- 
do (véase el Capitulo 15). La ecuaciôn recursiva bâsica de filtrado (Ecuaciôn (15.3)) 
muestra como calcular el nuevo estado de creencia a partir del estado de creencia ante- 
rior y la nueva observaciôn. Para el caso de un PDMPO, debe considerarse también una 
acciôn y una notaciôn ligeramente diferente, pero fundamentalmente, el resultado es el 
mismo. Si b{s) era el estado de creencia previo y el agente realiza la acciôn a y percibe 
la observaciôn o, enfonces el nuevo estado de creencia viene dado por 

b'(s') = aO(s',o)J J T{s,a,s')b{s) (17.11) 

s 

donde a es una constante de normalizaciôn que garantiza que la suma de los componentes 
del estado de creencia sea 1. Puede abreviarse esta ecuaciôn introduciendo el operador 
Siguiente y rescribiéndola como b' = Siguiente(T>, a, o). 

La idea fundamental, necesaria para entender los procesos de decision de Markov 
parcialmente observables es que: la action ôptima dépende exclusivamente del esta¬ 
do de creencia actual del agente. Es decir, la politica ôptima puede describirse me¬ 
diante una correspondencia v*(b) que asocie estados de creencias con acciones. Por 
lo tanto, no dépende del estado actual en el que se encuentre el agente. Esto es una 
buena cosa ya que el agente no sabe cuâl es su estado actual y todo lo que conoce es 


3 Esencialmente, el modelo de observaciôn es idéntico al modelo sensitivo de los procesos temporales, ya 
descrito en el Capitulo 15. Como con las funciones de recompensa en los procesos de decision de Markov, 
el modelo de observaciôn puede depender también de la acciôn y del estado résultante, pero este cambio no 
es fundamental. 
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su estado de creencia. Por lo tanto, el ciclo de decision de un agente PDMPO es el si- 
guiente: 

1. Dado el estado de creencia actual b, ejecutar la acciôn a = 7 T*(b). 

2. Recibir la observaciôn o. 

3. Establecer el estado de creencia actual con el valor devuelto por Siguiente(6, a, 
o ) y volver al paso 1. 

Ahora puede plantearse que los procesos parcialmente observables necesitan realizar 
una büsqueda en el espacio de estados de creencia del mismo modo que los métodos 
vistos en el Capitulo 3, para los problemas de contingencia y con ausencia de per- 
cepciôn. La diferencia principal es que el espacio de estados de creencia de un PDMPO 
es continue) ya que su estado de creencia es una distribuciôn de probabilidad. Por ejem- 
plo, un estado de creencia para el mundo de 4 X 3 es un punto en el espacio continuo 
n-dimensional, con n = 11. Una acciôn cambia el estado de creencia, no solo el esta¬ 
do fisico, de forma que éste se évalua de acuerdo con la informaciôn que el agente ad- 
quiere como un resultado. Por lo tanto, los procesos parcialmente observables incluyen 
el valor de la informaciôn (Secciôn 16.6) como un componente del problema de de¬ 
cision. 

A continuaciôn se examinan, con mas detalle, los resultados de las acciones. En con¬ 
crète, se calcula la probabilidad de que un agente, encontrândose en el estado de creen¬ 
cia b, alcance el estado de creencia b' después de ejecutar la acciôn a. Ahora, si se 
conociese la acciôn y la observaciôn subsiguiente, la Ecuaciôn (17.11) proporcionaria 
una actualizaciôn determinista del estado de creencia: b' = Siguiente(6, a, o). Por su- 
puesto, la observaciôn subsiguiente no se conoce aün, por lo que el agente podria ter- 
minar en uno de entre los varios estados de creencia posibles b', dependiendo de la 
observaciôn que ocurra. La probabilidad de percibir la observaciôn o, conociendo que 
se realizô la acciôn a partiendo del estado de creencia b, viene dada por la suma sobre 
todos los nuevos estados s' que el agente puede alcanzar: 

P(o\a, b) = X P(o\a, s', b)P(s'\a, b) 

s' 

= Z 0(s',o)P(s'\a, b) 

s' 

= y 0(s', o) y T(s, a, s')b(s ) 

s' s 

Si se dénota por t (b, a, b') a la probabilidad de alcanzar b' partiendo de b, dada la ac¬ 
ciôn a, enfonces se tiene que: 

t(6, a, b') — P(b'\a, b) = X P(b'\o, a, b)P{o\a, b) 

o 

= S P(b'\o, a, b) Z 0{s\ o ) s T(s, a, s')b(s) (17.12) 

o s' s 

donde P(b’\o, a, b) es 1 si b' = Siguiente(6, a, o) y 0 en otro caso. 

La Ecuaciôn (17.12) puede verse como la definiciôn del modelo de transiciôn para 
el espacio de estados de creencia. Puede definirse también una funciôn de recompensa 
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para los estados de creencia (es decir, la recompensa esperada para los estados actuales 
en los que el agente puede encontrarse): 

pib) = S b(s)R(s). 

s 

También parece que r(b, a, b') y que p(b) definen conjuntamente un PDM obseiyable sobre 
el espacio de estados de creencia. Ademâs, puede demostrarse que la politica ôptima para 
este PDM, v*(b), es también una politica ôptima para el problema de decision original, 
parcialmente observable. En otras palabras, la résolution de un PDMPO sobre un espacio 
de estados fîsicos puede reducirse a resolver un PDM sobre el correspondiente espacio de 
estados de creencia. Este hecho es quizâ menos sorprendente, si se recuerda que el espa¬ 
cio de estados de creencia siempre es observable para el agente, por definiciôn. 

Nôtese que, aunque hemos reducido los procesos parcialmente observables a un PDM 
convencional, el PDM résultante tiene un espacio de estados continuo (y por lo general, 
con una dimensionalidad mayor). Ninguno de los algoritmos para tratar procesos de de¬ 
cision de Markov descritos en las Secciones 17.2 y 17.3 son aplicables directamente a 
los procesos de decision de Markov résultantes de la transformaciôn. Parece que pue- 
den desarrollarse versiones de los algoritmos de iteraciôn de valores y de politicas para 
aplicarlas a los problemas de decision de Markov con estados continuos. La idea bâsi- 
ca es que una politica v(b) puede representarse como un conjunto de regiones del es¬ 
pacio de estados de creencia, cada una de las cuales esta asociada con una acciôn ôptima 
concreta 4 . La funciôn de valor asocia una funciôn lineal distinta de b a cada région. Cada 
paso de la iteraciôn de valores (o de politicas) perfila los limites de las regiones y pue¬ 
de introducir nuevas regiones. 

Los detalles del algoritmo se escapan del âmbito de este libro, pero se proporciona 
a continuaciôn la soluciôn para el mundo 4 X 3 sin percepciôn. La politica ôptima es la 
siguiente: 

[Izquierda, Arriba, Arriba, Derecha, Arriba, Arriba, Derecha, Arriba, 

Arriba, Derecha, Arriba, Derecha, Arriba, Derecha, Arriba, ...]. 

La politica es una secuencia porque el problema es determinista en el espacio de estados 
de creencias (no hay observaciones). El «truco» que encierra esta soluciôn es hacer que 
el agente se mueva a la Izquierda una vez para asegurar que no esta en la posiciôn (4, 1), 
de modo que esté bastante seguro de mantener el movimiento Arriba y a la Derecha para 
alcanzar la salida +1. El agente alcanza la salida +1 un 86,6 por ciento de las veces y lo 
hace de forma mucho mas râpida que la politica indicada al comienzo de la secciôn, por 
lo que su utilidad esperada es de 0,38 frente al valor de 0,08 obtenida por la primera. 

Para PDMPOs mucho mas complejos con observaciones, encontrar aproximaciones 
a las politicas ôptimas es muy dificil (pertenecen a la categoria de problemas NP-duros). 
Los problemas con apenas una docena de estados son a menudo intratables. La siguiente 
secciôn describe un método de aproximaciôn diferente para la resoluciôn de PDMPOs, 
basado en una büsqueda con anticipaciôn. 


4 Para algunos problemas de decision de Markov parcialmente observables, la politica ôptima tiene un ele- 
vadfsimo numéro de regiones, por lo que la sencilla aproximaciôn de la lista de regiones fracasa y son ne- 
cesarios métodos mâs ingeniosos para encontrar, incluso, una aproximaciôn. 
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17.5 Agentes basados en la teorîa de la decision 


En esta secciôn, se esboza una aproximaciôn comprensiva al diseno de agentes en 
entornos estocâsticos y observables parcialmente. Los elementos bâsicos ya son fa- 
miliares: 


RED DE DECISION 
DINÂMICA 


• Los modelos de transicion y observaciôn se representan mediante una red Baye- 
siana dinâmica (ya descrita en el Capitulo 15). 

• La red Bayesiana dinâmica se amplia con la inclusion de nodos de decision y de 
utilidad, al estilo de las redes de decision descritas en el Capitulo 16. El modelo 
résultante se denomina red de decision dinâmica, abreviadamente RDD. 

• Un algoritmo de filtrado se utiliza para incorporar cada percepcion y accion nue- 
vas y para actualizar la representaciôn del estado de creencia. 

• La decision se realiza mediante la proyecciôn hacia delante de todas las posibles 
secuencias de acciones y la elecciôn de la mejor. 


La principal ventaja de utilizar una red Bayesiana dinâmica para representar los mo¬ 
delos de transicion y de percepcion es que con ello se descompone la descripciôn del 
estado en un conjunto de variables aleatorias, del mismo modo que los algoritmos de 
planificaciôn utilizan representaciones lôgicas para descomponer el espacio de esta- 
dos explorado por los algoritmos de büsqueda. Por lo tanto el diseno del agente es 
una implementaciôn prâctica del agente basado en utilidades, esbozado en el Ca¬ 
pitulo 2. 

Dado que se emplean redes Bayesianas dinâmicas, se retoma la notaciôn del Ca¬ 
pitulo 15, donde X, se refiere al conjunto de variables de estado en el instante t y E, 
se refiere a las variables de evidencia. Por lo tanto, donde hasta ahora se ha emplea- 
do s, (el estado en el instante t ) en este capitulo, ahora se utilizarâ X ( . Se utilizarâ A t 
para referirse a la accion realizada en el instante t, por lo que el modelo de transicion 
T(s, a, s') es équivalente a escribir P(X f + JX ( , A t ) y el modelo de observaciôn 0(s, o ) 
es équivalente a P(E,|X f ). Se utilizarâ R t para referirse a la recompensa recibida en el 
instante de tiempo ty U, para referirse a la utilidad del estado en el instante t. Con esta 
notaciôn, una red de decision dinâmica tiene un aspecto parecido al mostrado en la Li- 
gura 17.9. 

Las redes de decision dinâmica proporcionan una representaciôn précisa de gran¬ 
des procesos de decision de Markov parcialmente observables, por lo que pueden uti- 
lizarse como datos de entrada para cualquiera de los algoritmos que tratan con este tipo 
de proceso, incluyendo los métodos de iteraciôn de valores y de politicas. Esta sec- 
ciôn se centra en los métodos con anticipaciôn que proyectan secuencias de acciones 
hacia el future, a partir del estado de creencia actual, de la misma forma que los al¬ 
goritmos sobre juegos del Capitulo 6. En la red de la Ligura 17.9 se han proyectado 
très pasos hacia el future; la decision actual y las futuras, asi como las observaciones 
y recompensas futuras se desconocen. Nôtese que en la red se incluyen nodos para re¬ 
presentar las recompensas para los estados X, + 1 y X, + 2 , pero para el estado X ( + 3 se 
représenta su utilidad. Esto es asi puesto que el agente debe maximizar la suma (de- 
preciada) de todas la futuras recompensas y U(X t + 3 ) représenta, precisamente, la re- 
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compensa para el estado X, + 3 y la de todos los estados sucesivos. Al igual que en el 
Capitulo 6, se considéra que se dispone de U solo de forma aproximada: si los valo- 
res de utilidad exactos estuvieran disponibles, no séria necesario adelantarse mas alla 
de un paso en el tiempo. 

La Figura 17.10 muestra parte del ârbol de büsqueda correspondiente a la RDD con 
très pasos de anticipaciôn mostrada en la Figura 17.9. Cada nodo triangular représenta 
el estado de creencia en el que se encuentra el agente cuando toma una decision A t+; 
(i = 0, 1, 2, ...). Los nodos circulares corresponden a elecciones por parte del entorno, 
es decir, qué observaciôn E t+1 - ocurre. Nôtese que no hay nodos aleatorios asociados a 
los resultados de la acciôn; esto es asi porque la actualizaciôn del estado de creencia para 
una acciôn es determinista, sin tener en cuenta el resultado actual. 
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El estado de creencia en cada nodo triangular puede calcularse mediante la aplica- 
cion del algoritmo de filtrado a la secuencia de observaciones y acciones que conducen 
a él. De esta forma, el algoritmo considéra el hecho de que, para la decision A l+i , el agen¬ 
te tendra disponibles las observaciones E f + 1 , ..., E f+i , incluso aunque no conozca cuâ- 
les serân esas observaciones en el instante de tiempo t. De esta forma, un agente basado 
en la teoria de la decision considerarâ automâticamente el valor de la informacion y eje- 
cutarâ acciones de adquisicion de informacion cuando sea oportuno. 

A partir del ârbol de büsqueda puede obtenerse una decision sin mas recuperando 
los valores de utilidad de las hojas, calculando un promedio en los nodos aleatorios y 
considerando el mâximo de los nodos de decision. Este proceso es similar al desempe- 
nado por el algoritmo Expectiminimax para ârboles de juego con nodos aleatorios, con 
las excepciones de que (1) también puede haber recompensas para los estados que no 
son hojas y (2) los nodos de decision se corresponden con estados de creencia, mas que 
con estados reales. La complejidad temporal de una büsqueda exhaustiva de profundi- 
dad d es del orden de 0(\D\ d ■ |E| d ), donde \D\ es el numéro de acciones disponibles y 
|E| es el numéro de posibles observaciones. Para problemas en los que el factor de des- 
cuento y no esta muy cerca de 1, una büsqueda poco profunda es a menudo suficiente- 
mente buena para obtener decisiones cuasi-ôptimas. También es posible simplificar el 
paso de promediar los nodos aleatorios mediante el muestreo del conjunto de posibles 
observaciones en vez de promediar sobre la totalidad de posibles observaciones. Exis- 
ten otras vias diferentes para obtener râpidamente soluciones aproximadas buenas, pero 
se aplaza su explicacion al Capitulo 21. 

Los agentes basados en la teoria de la decision que utilizan redes de decision di- 
nâmicas presentan una sérié de ventajas sobre otros agentes mas sencillos, cuyo dise- 
no se ha presentado en los capitulos anteriores. En concreto, pueden manejar entornos 
inciertos y parcialmente observables y pueden fâcilmente revisar su «planes» para tra- 
tar con observaciones inesperadas. Con los modelos sensitivos apropiados, pueden tra- 
tar con fallos en los sensores y planificar la recopilacion de informacion. Exhiben una 
«degradaciôn aceptable» ante la presencia de fuertes restricciones temporales y entor¬ 
nos complejos, gracias a la utilizacion de aproximaciones. ; Y cuâl es el inconvenien- 
te? El defecto mas importante del algoritmo basado en redes de decision dinâmicas es 
su dependencia de una büsqueda anticipada, al igual que los algoritmos de büsqueda 
en el espacio de estados de la Parte II. En la Parte IV se explicarâ como la capacidad 
de considerar planes abstractos, parcialmente ordenados mediante una büsqueda guia- 
da por objetivos, proporciona un incremento significativo del poder de resolucion de 
problemas, especialmente resenable cuando se combina con bibliotecas de planes. Se 
ha intentado extender estos métodos al dominio probabilista, pero hasta el momento, 
todos los intentos se han mostrado ineficientes. Un segundo problema es la naturaleza 
bâsicamente proposicional del lenguaje de las redes de decision dinâmicas. Séria muy 
conveniente tener la capacidad de aplicar algunas de las ideas de los lenguajes proba- 
bilistas de primer orden de la Seccion 14.6 al problema de la toma de decisiones. Los 
resultados de la investigacion actual han puesto de manifiesto que esta extension es po¬ 
sible y que tiene beneficios significativos, tal y como se pone de manifiesto en las no¬ 
tas finales de este capitulo. 
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17.6 Decisiones con varios agentes: teoria de juegos 


Este capftulo se ha centrado en la toma de decisiones en entornos con incertidumbre. Pero, 
<;q ué oc un e si la incertidumbre se debe a la presencia de otros agentes y a las decisio¬ 
nes que puedan adoptar? Y, / ; si las decisiones de esos agentes resultan estar influencia- 
das por nuestras decisiones? Con anterioridad ya se tratô esta cuestiôn, cuando se 
estudiaron los juegos en el Capitulo 6. Sin embargo, alli se trataba de juegos donde los 
jugadores se turnan y tienen informaciôn perfecta, por lo que la büsqueda minimax po- 
dia usarse para encontrar movimientos ôptimos. En esta secciôn se estudian los aspec- 
teoria de juegos tos de la teorfa de juegos que pueden utilizarse para analizar juegos con movimientos 
simultâneos. Para simplificar las cosas, se examinarân primero los juegos que solo son 
de un movimiento. La palabra «juego» y la simplificaciôn a un ünico movimiento pue- 
de hacer que este asunto parezea trivial, pero de hecho, la teoria de juegos se utiliza en 
situaciones de toma de decisiones muy sérias como la adopciôn de contramedidas en si- 
tuaciones de quiebra, la subasta del espectro radioeléctrico, las decisiones de fijaciôn de 
precios y desarrollo de productos y la defensa nacional, situaciones en las que se ma- 
nejan grandes cantidades de dinero y estân en juego vidas humanas. La teoria de juegos 
puede emplearse al menos de dos formas: 

1. Diseiio de Agentes: la teoria de juegos puede analizar las decisiones del agen¬ 
te y calcular la utilidad esperada de cada decision (bajo la hipôtesis de que otros 
agentes estân actuando de forma ôptima de acuerdo con la teoria de juegos). Por 
ejemplo, en el juego denominado «pares o nones» con dos dedos, dos jugado¬ 
res, I y P, muestran a la vez uno o dos dedos. Sea/el nümero total de dedos que 
muestran los jugadores. Si/es impar entonces I gana los/dôlares (que tiene que 
darle P), mientras que si /es par, P gana los/dôlares (que le tiene que dar en 
este caso /). La teoria de juegos puede determinar la mejor estrategia a utilizar 
frente a un jugador racional y calcular el beneficio esperado para cada jugador 5 . 

2. Diseiio de Mecanismos: cuando un entorno esta cohabitado por muchos agen¬ 
tes, puede ser posible définir las réglas del entorno (es decir, el juego que los 
agentes deben jugar) de forma que el bien comün de todos los agentes se ma- 
ximice cuando cada agente adopte la soluciôn que, desde el punto de vista de la 
teoria de juegos, maximiza su propia utilidad. Por ejemplo, la teoria de juegos 
puede ayudar a disenar protocolos para un conjunto de rutas de trâfico de In¬ 
ternet de forma que cada ruta tiene un incentivo para actuar de forma que se ma- 
ximice el rendimiento global. El diseiio de mecanismos puede emplearse también 
para construir sistemas multiagentes inteligentes que resuelvan problemas com- 
plejos de forma distribuida, sin necesidad de que cada agente sepa qué parte del 
problema global esta resolviendo. 


5 «Pares o nones» es una version recreativa de un juego de inspecciôn. Es estos juegos, un inspector elige 
un dia para inspeccionar un servicio (como un restaurante o una planta de armas biolôgicas) y el operador 
del servicio elige un dfa para ocultar todas las deficiencias. El inspector gana si los dias elegidos son dife- 
rentes y el operador gana cuando son los mismos. 
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JUGADORES 

ACCIONES 

MATRIZ DE BALANCES 
FINALES 


ESTRATEGIA PURA 

ESTRATEGIA MIXTA 

PERFIL DE 
ESTRATEGIA 

RESULTADO 

SOLUCIÔN 


Un juego en la teoria de juegos esta definido por los componentes siguientes: 

• Jugadores o agentes que serân quienes tomen las decisiones. Los juegos con dos 
jugadores han recibido una mayor atenciôn aunque los juegos de n jugadores (con 
n > 2) también son habituales. Se emplearân nombres con la inicial en mayüscu- 
las para designar a los jugadores, como Alicia y Roberto o I y P. 

• Acciones que los jugadores pueden elegir. Se emplearân nombres en minüsculas 
para referirnos a ellas, como por ejemplo una o testificar. Los jugadores pueden 
o no tener el mismo conjunto de acciones disponibles. 

• Una matriz de balances finales que proporciona la utilidad de cada jugador para 
cada combinaciôn de acciones de todos los jugadores. La matriz de balances fi¬ 
nales para el juego «pares o nones» es la siguiente: 



/: uno 

/: dos 

P: uno 
P: dos 

P = 2, 1 = -2 
P — —3, 7 = 3 

P = -3, / = 3 
P = 4, 7 = —4 


Por ejemplo, en la celda de la esquina inferior derecha se muestra que cuando I 
elige la accion dos y P también elige dos, el balance final es de 4 para P y de —4 
para I. 

Cada jugador debe adoptar y, después, ejecutar una estrategia (que es el nombre utili- 
zado en la teoria de juegos para una politica). Una estrategia pura es una politica de- 
terminista que indica la accion concreta a realizar en cada situaciôn. Para un juego de 
un movimiento, una estrategia pura es solo una ünica accion. El anâlisis de los juegos 
conduce a la idea de estrategia mixta, que es una politica aleatoria que selecciona ac¬ 
ciones concretas de acuerdo con la distribuciôn de probabilidad concreta de cada una de 
las acciones. La estrategia mixta que seleccione la accion a con probabilidad p y la ac¬ 
cion b en otro caso se escribe como \p: a\ (1 — p): b]. Por ejemplo, una estrategia mix¬ 
ta para el juego «pares o nones» con dos dedos puede ser [0,5: uiw, 0,5: dos]. Un perfil 
de estrategia es una asignaciôn de una estrategia mixta para cada jugador. Dado un per¬ 
fil de estrategia, el resultado del juego es un valor numérico para cada jugador. 

Una soluciôn del juego es un perfil de estrategia en la que cada jugador adopta una 
estrategia racional. Se verâ que la cuestiôn mas importante de la teoria de juegos es dé¬ 
finir qué significa «racional» cuando cada agente elige solo parte del perfil de estrate¬ 
gia que détermina el resultado. Es importante darse cuenta de que los resultados son 
realmente los resultados del juego, mientras que las soluciones son construcciones teô- 
ricas utilizadas para analizar el juego. Se verâ que solo algunos juegos tienen una üni¬ 
ca soluciôn en el espacio de estrategias mixtas. Esto no significa que el jugador deba, 
literalmente, adoptar una estrategia mixta para comportarse racionalmente. 

Considérese el siguiente relato: dos presuntos ladrones, Alicia y Roberto, son dete- 
nidos infraganti cerca del lugar de un robo y la policia les interroga por separado. Am- 
bos saben que si los dos confiesan el delito, tendrân que pasar cinco anos en la cârcel 
por robo, pero si los dos no confiesan, solo serân condenados a un ano de cârcel por el 
delito, menos grave, de tenencia de articulos robados. Sin embargo, la policia ofrece a 
cada uno un trato: si uno testifica contra el otro, senalândole como cabecilla del robo, 
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DILEMADEL 

PRISIONERO 


ESTRATEGIA 

DOMINANTE 


DOMINACIÔN FUERTE 


DOMINACIÔN DÉBIL 


ÔPTIMO DE PARETO 


DOMINACIÔN EN 
SENTIDO PARETO 


EQUILIBRIO 
DE ESTRATEGIAS 
DOMINANTES 


EQUILIBRIO 


el que testifique sera puesto en libertad, mientras que el acusado pasarâ 10 anos en la 
cârcel. Bajo estas condiciones, Alicia y Roberto se enfrentan al denominado dilema del 
prisionero: / dcbcrfa testificar o rechazar el trato? Siendo agentes racionales, tanto Ali¬ 
cia como Roberto querrân maximizar sus propias utilidades esperadas. Supongase que 
Alicia es cruelmente indiferente respecto al destino de su companero y que, por lo tan¬ 
to, su utilidad decrece en proporcion con el nümero de anos que pase en la cârcel, in- 
dependientemente de lo que le suceda a Roberto. Roberto piensa exactamente de la misma 
forma. Para ayudar a alcanzar una decision racional, ambos construyen la siguiente ma- 
triz de balances finales: 



Alicia: testificar 

Alicia: rechazar 

Roberto: testificar 
Roberto: rechazar 

A = -5, R = -5 
A = 0, R = —10 

A = -10, R = 0 
A = -1, R = -1 


Alicia analiza la matriz de balances finales como sigue: suponiendo que Roberto testi¬ 
fique, enfonces pasaré cinco anos en la cârcel si testifico y 10 si no lo hago por lo que, 
en este caso, testificar es mejor. Por otro lado, si Roberto rechaza el trato, enfonces no 
iré a la cârcel si testifico y estaré un ano si rechazo el trato por lo que, en este caso, tam- 
bién es mejor testificar. Por lo tanto, en cualquier caso, lo mejor para ml es testificar, por 
lo que debo hacerlo. 

Alicia ha descubierto que testificar es la estrategia dominante para el juego. Se dice 
que una estrategia e para un jugador j domina en sentido fuerte a una estrategia e' si 
el resultado de e es mejor para j que el resultado de e', para cada eleccion de estrategias 
por parte de los otros jugadores. La estrategia e domina en sentido débil a e 1 si s es me¬ 
jor que e’ en al menos un perfil de estrategia y no es peor, en cualquier otro. Una estra¬ 
tegia dominante es una estrategia que domina a todas las otras. Es irracional tanto jugar 
con una estrategia dominada en sentido fuerte, como no jugar con una estrategia domi¬ 
nante, si ésta existe. Siendo racional, Alicia elige la estrategia dominante. Se necesita 
ampliar la terminologfa antes de continuar. Se dice que un resultado es un ôptimo de 
Pareto 6 si no hay otro resultado que los jugadores preferirfan. Un resultado es dominado 
en sentido Pareto por otro, si todos los jugadores prefiriesen este ültimo. 

Si Alicia es «lista» a la vez que racional, deberfa continuar razonando de la si¬ 
guiente forma: la estrategia dominante de Roberto también es la de testificar. Por lo tan¬ 
to, él testificarâ y ambos serân condenados a cinco anos. Cuando cada jugador tiene una 
estrategia dominante, la combinacion de esas estrategias se dénomma equilibrio de es¬ 
trategias dominantes. En general, un perfil de estrategias constituye un equilibrio si 
ningün jugador puede beneficiarse por el hecho de cambiar de estrategia, conociendo que 
los demâs jugadores actüan con la misma estrategia. Esencialmente, el equilibrio se al- 
canza en un ôptimo local del espacio de politicas; es la cima de un pico a partir del cual 
la pendiente desciende a lo largo de cada dimension (dimensiones que se corresponden 
con las posibles elecciones de estrategia de los jugadores). 

El dilema del prisionero es que el resultado para los dos jugadores en el punto de 
equilibrio es peor que el resultado que obtendrfan si los dos rechazaran testificar. En otras 


6 La optimalidad de Pareto se denomina ast en honor al economista Vilfredo Pareto (1848-1923). 
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palabras, el resultado para la soluciôn de equilibrio esta dominada en sentido Pareto por 
el resultado (—1, — 1) de ( rechazar , rechazar). 

^Existe algün modo de que Alicia y Roberto lleguen al resultado (— 1, — 1)? Cier- 
tamente, una opcion beneficiosa para los dos es rechazar testificar, pero es una opcion 
inverosîmil. Cualquier jugador que contemple la posibilidad de rechazar se darâ cuen- 
ta de que harfa mejor si eligiese testificar. Este es el poder de atracciôn de un punto de 
equilibrio. 

El matemâtico John Nash (1928—) demostrô que cadajuego tiene un equilibrio del 
tipo aqiu definido. Se conoce como equilibrio de Nash en su honor. Claramente, un equi¬ 
librio de una estrategia dominante es un equilibrio de Nash (Ejercicio 17.9), pero no to- 
dos los juegos tienen una estrategia dominante. El teorema de Nash viene a decir que 
hay estrategias de equilibrio, incluso cuando no hay una estrategia dominante. 

Para el dilema del prisionero, solo el perfil de estrategia ( testificar , testificar) es un 
equilibrio de Nash. Es dificil entender cômo dos jugadores racionales pueden evitar este 
resultado ya que en cualquier soluciôn propuesta de no equilibrio, al menos uno de los 
dos jugadores estarâ tentado a cambiar de estrategia. Los teôricos del juego estân de acuer- 
do en que el equilibrio de Nash es una condiciôn necesaria para que sea una soluciôn 
(aunque no comparten que sea suficiente). 

Es bastante fâcil evitar la soluciôn ( testificar , testificar) si se cambia el juego (o los 
jugadores) de alguna forma. Por ejemplo, podrfa cambiarse a una version de juego ite- 
rativa en la que los jugadores conociesen si volverân a encontrarse (pero con el detalle 
importante de que no sabrian cuântas veces mas volverian a hacerlo). O si uno de los 
agentes tuviera convicciones morales que alentaran su espiritu de cooperaciôn y justi- 
cia, podria cambiarse la matriz de balances finales de modo que reflejase la utilidad de 
cada agente a la hora de cooperar con el otro. Mas adelante se verâ que limitar la po- 
tencia de câlculo de los agentes, mas que afectar a la capacidad de razonar de forma ra- 
cional, puede afectar también al resultado. 

Ahora se présenta un juego que no tiene una estrategia dominante. Acme, un fabri- 
cante de hardware para videojuegos, tiene que decidir si su prôxima consola de juegos 
utilizarâ DVD o CD. Entretanto, el fabricante de software para videojuegos Best nece- 
sita decidir si produce su prôximo juego para DVD o CD. Los beneficios de ambos serân 
positivos si estân de acuerdo y negativos si estân en desacuerdo, tal y como se muestra 
en la matriz de balances finales siguiente: 



Acme: dvd 

Acme: cd 

Best: dvd 
Best: cd 

A = 9, B = 9 

A = -3, B = -1 

A = -4, B = —1 
A = 5, B = 5 



No hay un equilibrio de estrategia dominante para este juego, pero hay dos equilibrios 
de Nash: {dvd, dvd) y (cd, cd). Se sabe que son equilibrios de Nash porque si cualquie- 
ra de los jugadores, de forma unilatéral, cambiase a una estrategia diferente, este juga¬ 
dor terminaria peor. Ahora los agentes tienen un problema: hay mûltiples soluciones 
aceptables, pero si cada agente elige una soluciôn diferente enfonces el perfil de estra¬ 
tegia résultante no serâ una buena soluciôn y ambos agentes padecerân esta situaciôn. 
/ ; Cômo pueden acordar una soluciôn? Una respuesta es que ambos deberian elegir la so- 
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luciôn optima en sentido Pareto {dvd, dvd), es decir, pueden restringir la definiciôn de 
«solucion» al ünico equilibrio de Nash para el ôptimo de Pareto, siempre que exista uno. 
Cada juego tiene al menos una solucion optima en sentido Pareto, pero puede tener va¬ 
rias o puede que no sean puntos de equilibrio. Por ejemplo, podria fijarse que el bene- 
ficio final de {dvd, dvd) fuera 5 en lugar de 9. En este caso, se tienen dos puntos iguales 
de equilibrio ôptimos en sentido Pareto. Para elegir uno de ellos, los agentes pueden op- 
tar por adivinarlo o por comunicarse, bien mediante el establecimiento de una conven- 
ciôn que ordene las soluciones, con anterioridad a que tenga lugar el juego, o bien 
mediante una negociacion, en el transcurso del juego (que se traduciria en la inclusion 
de acciones de comunicaciôn como parte de un juego de mültiples movimientos), que 
permita alcanzar un solucion mutuamente beneficiosa. Por lo tanto, la comunicaciôn en 
la teoria de juegos aparece exactamente por las mismas razones que apareciô en la pla- 
nificaciôn multiagente vista en el Capitulo 12. Los juegos en los que los jugadores ne- 
cesitan comunicarse de esta forma se denominan juegos de coordinaciôn. 

Se ha visto que un juego puede tener mas de un equilibrio de Nash, /como se sabe 
que cada juego debe tener al menos uno?, /el juego debe tener necesariamente uno? Pue¬ 
de ser que un juego no tenga equilibrios de Nash para las estrategias puras. Considère - 
se, por ejemplo, un perfil de estrategia pura para el juego «pares o nones» (Secciôn 17.6). 
Si el nümero total de dedos es par enfonces I querrâ cambiar; si el total es impar enfon¬ 
ces sera P quien quiera cambiar. Por lo tanto, ningün perfil de estrategia pura puede ser 
un equilibrio y deben contemplarse las estrategias mixtas. 

Pero /que estrategia mixta? En 1928, von Neumann desarrollô un método para en- 
contrar la estrategia mixta optima para juegos de suma cero de dos jugadores. Un jue¬ 
go de suma cero es un juego en el que el balance en cada celda de la matriz de balances 
finales suman cero 7 . Claramente, «pares o nones» es un juego de este tipo. Para el caso 
de juegos de suma cero de dos jugadores, se sabe que los balances son iguales y opues- 
tos, por lo que solo se necesitarâ considerar los balances para un jugador que sera el ju- 
gador a maximizar (igual que en el Capitulo 6). Para este juego, se elige al jugador impar 
l como jugador que maximiza, pudiéndose définir la matriz de balances finales por los 
valores U P (p, i) (el balance de P si muestra p dedos e I muestra i). 

El método de von Neumann se denomina técnica maximin y funciona como sigue: 

• Supôngase que cambiamos las réglas para forzar a P a revelar su estrategia en pri¬ 
mer lugar, seguido después por I. Enfonces se tiene un juego por turnos al cual pue¬ 
de aplicarse el algoritmo estândar minimax visto en el Capitulo 6. Supôngase que 
se tiene un resultado U pi . Claramente, este juego favorece a I por lo que la utili- 
dad real U del juego (desde el punto de vista de P) es al menos U PI . Por ejemplo, 
si se contemplan estrategias puras, el ârbol minimax del juego tiene un valor raiz 
de —3 {véase Figura 17.11 (a)), por lo que se sabe que U > — 3. 


7 Mas general es el concepto de juegos de suma constante en los que cada balance suma una cantidad cons¬ 
tante c. Un juego de suma constante de n jugadores puede transformarse en un juego de suma cero median¬ 
te la resta del valor c/n de cada balance. De este modo el ajedrez, con el balance tradicional de 1 para una 
Victoria, 1/2 para el caso de quedar en tablas y 0 para una derrota, técnicamente, es un juego de suma cons¬ 
tante con c = 1, pero puede transformarse fâcilmente en un juego de suma cero mediante la sustracciôn de 
1/2 a cada balance. 
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• Ahora supôngase que se cambian las réglas para forzar a I a revelar su estrategia 
primero y después P. Enfonces el valor minimax de este juego es U, P y dado que 
el juego favorece a P , se sabe que U es al menos U I P . Con estrategias puras, el va¬ 
lor es de +2 ( véase Figura 17.1 l(b)), por lo que se sabe que U < +2. 

Combinando estos dos argumentos, se tiene que la utilidad real U de la soluciôn debe 
satisfacer 

Up ,<U <U I p o en este caso —3 < t/ < 2 

Para determinar exactamente el valor de U, es necesario replantear el anâlisis desde el pun- 
to de vista de las estrategias mixtas. Primero, obsérvese que: una vez que el primer ju- 
gador révéla su estrategia, el segundo jugador no pue de perder por jugar una estrategia 
pur a. La razôn es sencilla: si el segundo jugador juega una estrategia mixta, \p: uno ; 
(1 — p): dos], su utilidad esperada es una combinacion lineal ( p ■ u uno + (1 — p) • u dos ) 
de las utilidades de las estrategias puras u uno y u Jm . Esta combinacion lineal nunca puede 
ser mejor que la mejor de u uno y u dos , por lo que el segundo jugador podrfa jugar también 
con una estrategia pura. 

Con esta observaciôn en mente, puede pensarse que los ârboles minimax tienen in- 
finitas ramas en la raiz, que se corresponden con las infinitas estrategias mixtas que el 
primer jugador puede elegir. Cada una de ellas conduce a un nodo con dos ramas que se 
corresponden a las estrategias puras del segundo jugador. Estos infinitos ârboles pueden 
representarse de forma finita si se utiliza una elecciôn «parametrizada» en la raiz: 

• Si P juega primero, la situaciôn se muestra en la Figura 17.11 (c). P juega \p: uno ; 
(1 — p): dos] en la raiz y enfonces I elige un movimiento dado el valor de p. Si I 
elige uno el balance esperado (para P) es 2 p — 3(1 — p) = 5 p — 3; si I elige dos, 
el balance esperado es —3p + 4(1 — p) = 4 - 1p. Estos balances pueden repre¬ 
sentarse como rectas en una grâfica donde p varia entre 0 y 1 sobre el eje de abs- 
cisas, tal y como se muestra en la Figura 17.1 l(e). I, el jugador que minimiza, 
siempre elegirâ la menor de las dos rectas (mostradas en trazo gmeso en la figu¬ 
ra). Por lo tanto, lo mejor que P puede hacer en la raiz es elegir que p sea el pro- 
babilidad en el punto de intersecciôn, es decir 

5p — 3 = 4 — Ip ^ p = 1/12 

La utilidad para P en este punto es U P ; = —1/12. 

• Si I mueve primero, la situaciôn se muestra en la Figura 17.1 l(d). / juega \q\ uno\ 
(1 ~ q)'. dos] en la raiz y enfonces P elige un movimiento dado el valor de q. Los 
balances son 2q — 3(1 — q) = 5q — 3 y ~3q + 4(1 — q) = 4 — 7t/ 8 . Una vez 
mas, la Figura 17.11 (f) muestra que lo mejor que I puede hacer en la raiz es ele¬ 
gir la probabilidad en punto de intersecciôn: 

5q — 3 = 4 — Iq => q = 7/12 

La utilidad para P en este punto es JJ t P — —1/12. 


8 Es una coincidencia que estas ecuaciones sean las mismas que para p; la coincidencia se debe a que U P {uno, 
dos) = Upidos, uno) = —3. Esto explica también por qué la estrategia ôptima es la misma para arnbos ju- 
gadores. 
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Figura 17.11 (a) y (b): ârboles minimax para el juego «pares o nones» si los jugadores juegan 

por turno estrategias puras. (c) y (d): ârboles parametrizados del juego en los que el primer juga- 
dor juega una estrategia mixta. Los balances finales dependen de la probabilidad del paramétra (p o q) 
de la estrategia mixta. (e) y (f): para cada valor particular de probabilidad, el segundo deberâ ele- 
gir la «mejor» de las dos acciones, de forma que el valor de la estrategia mixta del primer jugador 
viene dada por los tramos gruesos. El primer jugador elegirâ como valor del paramétra la proba¬ 
bilidad de la estrategia mixta en el punto de intersecciôn. 


EQUILIBRIO MAXIMIN 


Asi pues, se tiene que la utilidad real del juego esta entre —1/12 y —1/12, es decir, que 
es exactamente —1/12. (La moraleja es que es mejor ser I que P si usted juega a este jue¬ 
go). Ademâs, la utilidad real se alcanza mediante la estrategia mixta [7/12: uno\ 5/12: clos] 
a la que deberfan jugar los dos jugadores. Esta estrategia se denomina equilibrio maxi- 
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min del juego y es un equilibrio de Nash. Nôtese que cada estrategia componente de la es- 
trategia mixta en equilibrio tiene la misma utilidad esperada. En este caso, tanto uno como 
dos tienen la misma utilidad esperada — 1/12, al igual que la propia estrategia mixta. 

Este resultado para el juego «pares o nones» es un ejemplo del resultado general ob- 
tenido por von Neumann: todo juego de suma cero cou dos jugadores tiene un equili¬ 
brio maximin cuando se permiten estrategias mixtas. Ademâs, cada equilibrio de Nash 
en un juego de suma cero es un equilibrio maximin para dos jugadores. El algoritmo ge¬ 
neral para encontrar los equilibrios maximin en juegos de suma cero es un tanto mas com- 
plicado de lo que pueden sugerir las Figuras 17.1 l(e) y (f). Cuando son n las posibles 
acciones, una estrategia mixta es un punto del espacio n-dimensional y las rectas se con- 
vierten en hiperplanos. También es posible que otras estrategias dominen alguna estra¬ 
tegia pura para el segundo jugador de modo que no sean ôptimas frente a cualquier 
estrategia del primer jugador. Después de eliminar taies estrategias (que puede hacerse 
de forma repetida), la elecciôn ôptima en la raiz es un ejemplo de un problema de pro- 
gramaciôn lineal: maximizar una funcion lineal sujeta arestricciones lineales. Taies pro- 
blemas pueden resolverse por técnicas convencionales en un tiempo polinomial, 
dependiendo del numéro de acciones (y del numéro de bits utilizados por la funcion de 
recompensa, si se quiere ser estricto). 

La pregunta crucial se mantiene, qué deberia hacer realmente un agente racional 
para jugar al juego «pares o nones» en su planteamiento inicial? El agente racional ha- 
brâ derivado el hecho que [7/12: uno; 5/12: dos ] es la estrategia del equilibrio maxi¬ 
min, y supondrâ que este conocimiento lo comparte el agente oponente. El agente 
podria utilizar un dado de 12 caras o un generador de numéros aleatorios para selec- 
cionar aleatoriamente una acciôn de acuerdo con esta estrategia mixta, en cuyo caso el 
balance esperado séria —1/12 para P. O el agente solo podria decidir jugar uno o dos. 
En cualquier caso, el balance esperado se mantiene en —1/12 para P. Curiosamente, 
la elecciôn unilatéral de una acciôn concreta no perjudica el balance esperado, pero per- 
mitir que el otro agente conozca con antelaciôn la decision unilatéral adoptada por el 
primero, si afecta al balance esperado puesto que el oponente puede ajustar conse- 
cuentemente su estrategia. 

Encontrar las soluciones de juegos finitos de suma cero (es decir, equilibrios de Nash) 
es un poco mas complicado. La aproximaciôn general tiene dos pasos: (1) enumerar to- 
dos los posibles subconjuntos de acciones que podrfan constituir estrategias mixtas. Por 
ejemplo, tratar primero todos los perfiles de estrategia donde cada jugador utiliza una 
ünica acciôn, después aquellas donde cada jugador utiliza una o dos acciones y asi, su- 
cesivamente. (2) para cada perfil de estrategia enumerado en el paso (1), comprobar si 
es un equilibrio. Esto se hace mediante la resoluciôn de un conjunto de ecuaciones e ine- 
cuaciones que son semejantes a las utilizadas en el caso de suma cero. Para dos juga¬ 
dores, estas ecuaciones son lineales y pueden resolverse con técnicas bâsicas de 
programaciôn lineal, pero para très o mas jugadores no son lineales y puede ser muy com¬ 
plicado resolverlas. 

Hasta ahora se han estudiado tan solo los juegos de un ünico movimiento. El tipo 
mas sencillo de juegos con mültiples movimientos son los denominados juegos reite- 
rativos en los que los jugadores se enfrentan a la misma elecciôn reiteradamente, pero 
en todo momento, con conocimiento de los movimientos previos de todos los jugado- 
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res. Un perfil de estrategia para un juego reiterativo especifica la eleccion de una ac- 
cion para cada jugador en cada instante de tiempo para todas las historias posibles de 
movimientos anteriores. Al igual que los procesos de decision de Markov, los balances 
son aditivos a lo largo del tiempo. 

Considérese la version reiterativa del dilema del prisionero. / Colaborarân Alicia y 
Roberto y rechazarân testificar, sabiendo que volverân a encontrarse de nuevo? La res- 
puesta dépende de los detalles. Por ejemplo, supongase que Alicia y Roberto saben que 
ellos deberân jugar exactamente 100 rondas del dilema del prisionero. Enfonces, sabrân 
que la ültima ronda no sera un juego reiterativo (es decir, el resultado puede no tener efec- 
to alguno sobre rondas futuras) y, por lo tanto, elegirân la estrategia dominante testifi¬ 
car en esa ronda. Una vez determinada la ültima ronda, la penültima pasa también a no 
tener efecto sobre las siguientes rondas por lo que también elegirân el equilibrio de es¬ 
trategia dominante, ( testificar, testificar). Por inducciôn, ambos jugadores elegirân tes¬ 
tificar en cada ronda, acumulando una pena de prision de 500 anos cada uno. 

Pueden obtenerse diferentes soluciones si se cambian las réglas del juego. Por ejem¬ 
plo, supongase que, después de cada ronda, hay un 99 por ciento de probabilidades de 
que los dos jugadores vuelvan a encontrarse. Enfonces, el nümero esperado de rondas 
es también de 100, pero ninguno de los jugadores conoce con total certeza cuâl serâ la 
ültima ronda. Bajo estas condiciones, es posible un comportamiento mâs cooperativo. 
Por ejemplo, una estrategia de equilibrio para cada jugador es rechazar, a menos que el 
otro jugador haya elegido alguna vez testificar. Esta estrategia podria denominarse cas- 
tigo perpetuo. Supongase que ambos jugadores adoptan la misma estrategia y que am¬ 
bos conocen este hecho. En tanto en cuanto ninguno de los jugadores haya elegido 
testificar, el balance total future esperado por cada jugador en cualquier instante es 

2 0,99'• (-1) = -100 

t - 0 

Un jugador que elija testificar obtendrâ en el siguiente movimiento una puntuacion de 
0 en lugar de — 1, si bien su balance future esperado pasa a ser 

0 + V 0,99'- (-10) = -99 

t = 1 

Por lo tanto, en cada paso, no hay ningün incentivo para desviarse de ( rechazar, recha¬ 
zar). El castigo perpetuo es la estrategia de «destruccion mutua asegurada» del dilema 
del prisionero: una vez que cualquiera de los jugador décidé testificar, se garantiza que 
ambos jugadores lo lamentarân mucho. Pero esto solo funciona como una medida di- 
suasoria cuando el otro jugador créé que ha elegido esta estrategia (o cuando menos que 
puede haberla adoptado). 

Hay otras estrategias que son mâs indulgentes. La mâs famosa, denominada ojo 
por ojo, requière comenzar con rechazar y después replicar la eleccion previa hecha 
por el otro jugador en el resto de movimientos. De este modo Alicia rechazaria el tra- 
to en tanto en cuanto Roberto también lo hiciera y testificarîa después de que Rober¬ 
to lo hubiera hecho y volveria a rechazarlo si Roberto lo hiciera. Aunque muy sencilla, 
se ha probado que esta estrategia es muy robusta y efectiva frente a una gran variedad 
de estrategias. 
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Pueden obtenerse también soluciones diferentes cambiando a los agentes en vez de 
cambiar las réglas del juego. Supôngase que los agentes son mâquinas de estado finito 
con n estados y que estân jugando un juego de m pasos, con m> n pasos. Asi pues, los 
agentes son incapaces de representar el nümero de pasos restantes y puede considerar- 
se que este nümero es desconocido. Por lo tanto no pueden realizar el proceso de in- 
ducciôn anterior y son libres de alcanzar un equilibrio {rechazar, rechazar ) mas favorable. 
En este caso, la ignorancia es beneficiosa (o mas bien, que tu oponente créa que eres ig¬ 
norante es beneficioso). En estos juegos reiterativos, el éxito de uno dépende de la per¬ 
ception que otro oponente tenga sobre uno (si nos consideran un maton o un simplôn) 
y no de caracteristicas reales de uno. 

En su compléta extension, los juegos reiterativos estân fuera del alcance de este 
libro pero tienen lugar en muchos entornos. Por ejemplo, puede construirse un jue¬ 
go secuencial poniendo a dos agentes en el mundo de 4 X 3 celdas de la Figura 17.1. 
Si se especifica que no ocurre movimiento alguno cuando los dos agentes intentan 
moverse simultâneamente a la misma casilla (un problema habituai en muchos cru- 
ces de trâfico) enfonces ciertas estrategias puras podrân bloquearse indefinidamen- 
te. Una solucion es que cada agente, aleatoriamente, décida entre moverse o quedarse 
quieto; la situaciôn de colapso se resolverâ râpidamente y ambos agentes estarân con- 
tentos. Esto es exactamente lo que se hace para resolver las colisiones en las redes 
Ethernet. 

En la actualidad, los métodos de solucion conocidos para juegos reiterativos se ase- 
mejan a los algoritmos de juegos por turnos, vistos en el Capitulo 6, en los que el ârbol 
de juego puede construirse de la raiz hacia abajo y resolverse de las hojas hacia arriba. 
La mayor diferencia es que, en lugar de considerar simplemente el mâximo o mmimo 
de los valores de los hijos, el algoritmo debe resolver, en cada nivel, un juego con es¬ 
trategias mixtas considerando que los nodos hijos se han resuelto y tienen valores co¬ 
nocidos con los que trabajar. 

Los juegos reiterativos en entornos parcialmente observables se conocen como jue¬ 
gos de informaciôn parcial. Ejemplos de esta clase de juegos son los juegos de cartas 
como el poker o el bridge, en los que cada jugador solo puede ver lar cartas de un sub- 
conjunto, y «juegos» mas serios, como las abstracciones de la guerra nuclear, donde nin- 
gün bando conoce la localizaciôn de todas las armas de su oponente. Los juegos de 
informaciôn parcial se resuelven mediante la consideraciôn de un ârbol de estados de 
creencia, al igual que los procesos de decision parcialmente observables ( véase Secciôn 
17.4). Una diferencia importante es que, mientras que el estado de creencia de uno es 
observable, el estado de creencia del oponente no lo es. Solo recientemente se han desa- 
rrollado algoritmos prâcticos para esta clase de juegos. Algunas versiones simplificadas 
del juego del poker se han resuelto, comprobândose que los «faroles» son realmente una 
elecciôn racional, como parte de una estrategia mixta bien compensada. Una perspica- 
cia importante que surge de taies estudios es que las estrategias mixtas son ütiles, no solo 
por hacer las acciones de uno impredecibles, sino también por minimizar la cantidad de 
informaciôn que el oponente puede aprender de la observaciôn de nuestras acciones. Es 
interesante que, aunque los disenadores de programas para jugar al bridge son conscientes 
de la importancia de recopilar y ocultar informaciôn, ninguno de ellos ha propuesto aün 
el uso de estrategias aleatorias. 
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17.7 


DISENO DE 
MECANISMOS 


MECANISME) 


Hasta ahora, ha habido algunas barreras para aplicar ampliamente la teorfa de jue- 
gos en el diseno de agentes. En primer lugar, nôtese que en una solucion de equilibrio 
de Nash, un jugador esta asumiendo que los oponentes jugarân definitivamente la es- 
trategia de equilibrio. Esto significa que el jugador es incapaz de incorporar cualquier 
creencia que pueda tener acerca de como actuarân, probablemente, otros jugadores y, por 
lo tanto, que puede estar desperdiciando recursos defendiéndose frente amenazas que nun- 
ca se materializarân. La nocion de equilibrio en sentido Bayes-Nash afronta parcial- 
mente esta cuestion: es una solucion de equilibrio con respecto a la distribucion de 
probabilidad a priori de un jugador sobre las estrategias de los otros jugadores, es decir, 
expresa las creencias de un jugador sobre las estrategias probables de otros jugadores. 
En segundo lugar, no se dispone en la actualidad de mecanismos aceptables que permi- 
tan combinar las estrategias de la teoria de juegos con las estrategias de control para un 
proceso de decision de Markov parcialmente observable. A causa de estos problemas, 
la teoria de juegos se ha utilizado principalmente para analizar entomos que estân en 
equilibrio, mas que para contrôlai• agentes dentro de un entorno. Pronto se verâ como 
puede ayudar a disenar entornos. 


Diseno de mecanismos 


La seccion anterior se centraba en la cuestion de que «conocido un juego, /en qué con¬ 
siste una estrategia racional?». En esta seccion se trata de determinar «/ como deberia 
disenarse un juego?, una vez conocido que son agentes racionales». Mas especificamente, 
se desearia disenar un juego cuyas soluciones, compuestas por las soluciones que cada 
agente obtendria con base en su propia estrategia, son resultado de maximizar alguna 
funciôn de utilidad global. Este problema se denomina diseno de mecanismos, o en al¬ 
gunas ocasiones teoria inversa de juegos. El diseno de mecanismos es una materia bâ- 
sica de las ciencias economicas y politicas. Para grupos de agentes, se tiene la posibilidad 
de utilizar mecanismos basados en la teoria de juegos para construir sistemas inteligen- 
tes al margen de una coleccion de sistemas mas limitados (incluso sistemas no coope- 
rativos), de la misma forma que los seres humanos pueden alcanzar objetivos mas alla 
de los limites individuales. 

Ejemplos de disenos de mecanismos incluyen la subasta de billetes de avion bara- 
tos, el enrutado de paquetes TCP entre computadores, decidir como asignar médicos re- 
sidentes a los hospitales y decidir como un robot que juegue al fütbol cooperarâ con sus 
companeros de equipo. El diseno de mecanismos pasô a ser mas que una materia aca- 
démica, cuando en la década de los 90, varias naciones afrontaron el problema de su- 
bastar licencias de émision en el espectro radioeléctrico, perdiendo cientos de millones 
de dôlares en los ingresos potenciales como consecuencia de un diseno pobre de los me¬ 
canismos implicados. Formalmente, un mecanismo consta de (1) un lenguaje para des- 
cribir el conjunto (posiblemente infinito) de estrategias permisibles que los agentes 
pueden adoptar y (2) la régla résultante G que détermina los balances para los agentes, 
dado un perfil de estrategia de las estrategias permisibles. 
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TRAGEDIA DE 
LOS MANC0MUNAD0S 


INFLUENCIAS 

EXTERNAS 


SUBASTAINGLESA 


A primera vista, el problema del diseno de mecanismos puede parecer trivial. Su- 
pôngase que la funciôn de utilidad global U se descompone en un conjunto de funcio- 
nes de utilidad individuales de cada agente U t , de tal modo que U = 2,U,- Enfonces, uno 
puede decir que si cada agente maximiza su propia utilidad, seguramente esto conduci- 
râ automâticamente a maximizar la utilidad global. (Por ejemplo, en la obra El Capital 
se dice que si todo el mundo trata de enriquecerse, la riqueza total de la sociedad se in- 
crementarâ). Desafortunadamente, esto no es asi. Las acciones de cada agente pueden 
afectar al bienestar de los otros agentes de tal forma que se décrémenté la utilidad glo¬ 
bal. Un ejemplo de esta situation es la tragedia de los mancomunados, una situation 
en la que todos los ganaderos, de forma individual, llevan a pastar su ganado a la dehe- 
sa comunal, con el resultado de la sobreexplotaciôn de los pastos mancomunados y una 
utilidad negativa para todos los ganaderos. Cada ganadero, a titulo individual, actüa ra- 
cionalmente, razonando que el uso de los pastos comunales es libre y que, aunque la so¬ 
breexplotacion de éstos podrfa conducir a su destruction, abstenerse de utilizarlos no le 
ayudaria nada (ya que los otros mancomunados lo utilizarian de todos modos). Una ar¬ 
gumentation similar puede utilizarse para el vertido incontrolado de productos conta¬ 
minantes a la atmôsfera o a los océanos. 

Una aproximaciôn estândar en el diseno de mecanismos que aborda estos problemas 
es cobrar a cada agente por el uso de los bienes comunes. De forma mas general, se ne- 
cesita garantizar que todas las influencias externas (efectos sobre la utilidad global que 
no son reconocidas en las transacciones individuales de los agentes) se expliciten. El co¬ 
rrecte establecimiento de los precios es una cuestiôn complicada. En el limite, esta 
aproximaciôn viene a ser lo mismo que crear un mecanismo en el que se requiere efec- 
tivamente que cada agente maximice una utilidad global. Esta es una tarea extremada- 
mente dificil para el agente, ya que ni puede valorar el estado actual del mundo ni 
observar los efectos de sus acciones sobre el resto de agentes. Por lo tanto, el diseno de 
mecanismos se concentra en encontrar mecanismos para los cuales los problemas de de¬ 
cision a los que se enfrentan los agentes sean sencillos. 

Se considéra primero el caso de las subastas. En su forma mas habituai, una subas- 
ta es un mecanismo de venta de ciertas mercancias a una sérié de compradores. Las es- 
trategias son las pujas y los resultados determinan quién adquiere las mercancias y la 
cantidad de dinero pagada. Un ejemplo de dônde encajan las subastas dentro de la IA 
se tiene cuando un grupo de agentes deciden si cooperan o no en la realizaciôn de un 
plan conjunto. Hunsberger y Grosz (2000) mostraron que esta tarea puede realizarse de 
forma eficiente con una subasta en la que los agentes pujan por el papel jugado en la re¬ 
alizaciôn del plan. 

Por ahora, se considerarân subastas en las que (1) hay una ünica mercancia, (2) cada 
pujador tiene un valor de utilidad v ; para la mercancia y (3) estos valores solo son co- 
nocidos por el pujador. Los pujadores hacen pujas de valor b t , y la mayor oferta obtie- 
ne la mercancia, pero el mecanismo détermina cômo deben hacerse las pujas y el precio 
pagado por el ganador (no necesariamente b t ). El tipo de subasta mejor conocido es la 
subasta inglesa en la que los subastadores incrementan el precio de las mercancias y 
comprueban si los pujadores estân aün interesados y asi, hasta que solo quede uno. Este 
mecanismo tiene la propiedad de que el pujador con el mayor valor v, obtiene las mer¬ 
cancias por un precio de b m + d, donde b m es la mayor puja entre todos los jugadores y 
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ESTRATEGIA Y 
PRUEBA 


SUBASTA CON OFERTA 
CERRADA 


SUBASTA CON OFERTA 
CERRADA DEL 
SEGUNDO PRECIO 
SUBASTA VICKREY 


d es el incremento que fija el subastador entre sucesivas ofertas 9 . La subasta inglesa tam- 
bién tiene la propiedad de que los pujadores tienen una estrategia dominante sencilla: 
mantener la puja, en tanto en cuanto, el coste actual esté por debajo de su valor Perso¬ 
nal. Conviene recordar que «dominante» quiere decir que la estrategia funciona bien fren- 
te a otra estrategia cualquiera, lo cual se traduce en que cada jugador puede adoptarla 
sin considerar las del resto. Por lo tanto, los jugadores no tienen que malgastar tiempo 
y energfa contemplando las estrategias posibles de los otros jugadores. Un mecanismo 
en el que los jugadores tienen una estrategia dominante que implica revelar al resto sus 
verdaderas intenciones se denomina de estrategia y prueba. 

Una propiedad negativa de la subasta inglesa es su elevado coste de comunicacion 
ya que o bien la subasta tiene lugar en una sala de subastas o bien todos los pujadores 
disponen de lineas de comunicacion seguras y de alta velocidad. Un mecanismo alter¬ 
native que requiere una comunicacion menor es la subasta con oferta cerrada. En este 
caso, cada pujador hace una oferta ünica y se la comunica al subastador de forma que 
la mayor gana. Con este mecanismo, la estrategia de pujar por el valor verdadero no es 
dominante. Si su valor es v, y usted créé que el mâximo del resto de ofertas sera b m , en¬ 
fonces usted deberia pujar por un valor que fuera el mmimo entre v ; y b m + e. Dos de los 
inconvenientes de la pujas cerradas son que el jugador con el mayor v, puede no obte- 
ner las mercantias y que los jugadores deben consumir recursos en observar las estra¬ 
tegias del resto de jugadores. 

Un pequeno cambio en las réglas de las subastas de oferta cerrada da lugar a la su¬ 
basta con oferta cerrada del segundo precio, también conocida como subasta Vic- 
krey 10 . En este tipo de subastas, el ganador paga el precio de la segunda puja mas alta 
en vez de pagar su propia oferta. Esta sencilla modification élimina las complejas deli- 
beraciones necesarias para pujar en las subastas con ofertas cerradas convencionales (o 
del primer precio) ya que, ahora, la estrategia dominante es pujar por el valor actual 
que uno tiene. Para ver esto, hacemos notar que cada jugador puede pensar que la su¬ 
basta es como un juego de dos jugadores si se ignora al resto de jugadores, con la ex¬ 
ception de él mismo y el pujador con la mayor oferta. La utilidad del jugador i, en funciôn 
de su oferta b t , su valor v, y la mayor oferta entre el resto de ofertas del resto de juga¬ 
dores, b m , es 

u,(b„ b J = 


(v, - b J si b i >b m 
0 en otro caso 


Para ver que b t — v, es una estrategia dominante, nôtese que cuando (v, — b m ) es positi- 
vo, cualquier oferta que gane la subasta es ôptima, y pujar por v,, en concreto, gana la 
subasta. Por otro lado, cuando (v, — b m ) es negativo, cualquier oferta que pierda la su¬ 
basta es ôptima y, en concreto, pujar por v, pierde la subasta. Por lo tanto, pujar por v, 
es el ôptimo para todos los posibles valores de b m y, de hecho, v t es la ünica oferta que 
tiene esta propiedad. Por su simplicidad y escasos recursos computacionales necesarios, 


9 En realidad existe una pequena probabilidad de que el jugador con el mayor valor v ; no adquiera las mer- 
canctas en el caso de que b m < v, < b m + d. La probabilidad de que esto ocurra puede hacerse tan pequena 
como se quiera, disminuyendo el valor de d. 

10 Denominada asf, en honor a Willian Vickrey (1914—1996), ganador del premio Nobel de Econorma 
en 1996. 
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tanto para el vendedor como para los pujadores, la subasta Vickrey se utiliza ampliamente 
en la construcciôn de sistemas de IA distribuidos. 

Considérese ahora el problema del enrutado en Internet. Los jugadores son ahora las 
aristas del grafo de conexiones de red. Cada jugador conoce el coste c, de enviar un men- 
saje a través del enlace; el coste de no tener que enviar un mensaje es 0. El objetivo es 
encontrar la ruta mas barata que debe seguir un mensaje desde un origen a un destino, 
donde el coste de la ruta compléta es la suma de los costes individuales de cada enlace. 
En el Capitulo 4 se vieron varios ejemplos para calcular la ruta mas corta dado el coste 
de las arista de manera que lo que tiene que hacerse es solicitar a cada agente que in¬ 
forme sobre su coste real c r Desafortunadamente, si solo se pregunta esto a cada agen¬ 
te, se obtendrân informes con costes elevados para que se aliente a enviar el mensaje por 
otro enlace. Se necesita, pues, un mecanismo a prueba de estrategias. Este mecanismo 
consiste en pagar a cada jugador una compensacion p j igual a la longitud de la ruta mas 
corta que no contenga el i-ésimo enlace menos la longitud de la ruta mas corta suponiendo 
que el coste a través del /-ésimo enlace es 0: 

p f = Longitud (ruta con c, = °°) — Longitud (ruta con c, = 0) 

Puede demostrarse que, de acuerdo con este mecanismo, la estrategia dominante de cada 
jugador es la de informar fielmente sobre c ; y que, procediendo de esta forma, se obtendrâ 
la mta mas barata. A pesar de esta propiedad, el mecanismo esbozado no se utiliza en 
la prâctica debido al elevado coste de comunicacion y de computacion. El disenador del 
mecanismo debe comunicarse con los n jugadores y debe resolver el problema de opti- 
mizacion. Esto podria merecer la pena si los costes pudieran amortizarse considerando 
todos los mensajes, pero en una red real, los costes c t fluctuarian constantemente debi¬ 
do a la congestion en el trâfico y porque algunas mâquinas pueden caer, mientras que 
otras pueden comenzar a funcionar. Todavia no se ha concebido una solucion, comple- 
tamente satisfactoria, para este problema. 


17.8 Resumen 


Este capitulo muestra como utilizar el conocimiento acerca del mundo para adoptar de- 
cisiones, incluso cuando los resultados de una accion son inciertos y las recompensas 
por actuar no pueden obtenerse hasta que no hayan transcurrido un numéro suficiente 
de acciones. Los puntos principales son los siguientes: 

• Los problemas de decision secuenciales en entornos con incertidumbre, también 
llamados procesos de decision de Markov (PDM) se definen mediante un mo- 
delo de transiciôn, que especifica los resultados probabilistas de cada accion y 
una funciôn de recompensa, que détermina la recompensa en cada estado. 

• La utilidad de una secuencia de estados viene dada por la suma de todas las posi- 
bles recompensas sobre la secuencia y posiblemente depreciadas a lo largo del tiem- 
po. La solucion de un PDM es una politica que asocia una decision a cada estado 
que el agente puede alcanzar. Una politica optima maximiza la utilidad de las se- 
cuencias de estados encontradas cuando ésta se ejecuta. 
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• La utilidad de un estado es la utilidad esperada de las secuencias de estados en- 
contradas cuando se ejecuta una polltica ôptima partiendo de ese estado. El algo- 
ritmo de iteraciôn de valores para la resolucion de procesos de decision de 
Markov se basa en la resolucion iterativa de las ecuaciones que relacionan las uti- 
lidades de cada estado con las de sus vecinos. 

• La iteraciôn de politicas alterna entre el câlculo de utilidades de los estados de 
acuerdo con la polltica actual y la mejora de la polltica actual en relaciôn con las 
utilidades actuales. 

• Los procesos de decision de Markov parcialmente observables (PDMPO) son mu- 
cho mas difïciles de resolver que los procesos de decision de Markov. Pueden re- 
solverse mediante su conversion a un PDM en el espacio continuo de estados de 
creencia. El comportamiento ôptimo en procesos de decision parcialmente obser¬ 
vables incluye la recopilaciôn de informaciôn para reducir la incertidumbre y, por 
tanto, tomar mejores decisiones en el future. 

• Puede construirse un agente basado en la teoria de la decision para entornos de tipo 
PDMPO. El agente utiliza una red de decision dinâmica para representar los mo- 
delos de transiciôn y observaciôn, modificar su estado de creencia y proyectarlo 
hacia el future sobre las posibles secuencias de acciones. 

• La teoria de juegos describe el comportamiento racional de los agentes en situa- 
ciones en las que interactüan simultâneamente varios agentes. Las soluciones de 
los juegos son equilibrios de Nash (perfiles de estrategia en los que ningün agen¬ 
te tiene incentivo alguno en desviarse de la estrategia especificada). 

• El diseno de mecanismos puede usarse para establecer las réglas mediante las cua- 
les los agentes interactuarân, con el fin de maximizar alguna utilidad global a tra- 
vés de la operaciôn, a titulo individual, de agentes racionales. En algunas ocasiones 
existen mecanismos que alcanzan este objetivo sin necesidad de que cada agente 
considéré las elecciones hechas por otros agentes. 

Se retomarâ el mundo de los procesos de decision de Markov, convencionales y obser¬ 
vables parcialmente, en el Capitulo 2 1 , cuando se estudien los métodos de aprendiza- 
je por refuerzo que permiten a un agente mejorar su comportamiento a partir de la 
experiencia en entornos secuenciales y con incertidumbre. 



Notas bibliogrâficas e histôricas 

Richard Bellman (1957) iniciô la aproximaciôn moderna a los problemas de decision 
secuenciales y propuso la aproximaciôn propia de la programaciôn dinâmica como so- 
luciôn general, proponiendo en particular el algoritmo de iteraciôn de valores. La tesis 
doctoral de Ron Howard (1960) introdujo la iteraciôn de politicas y la idea de recom¬ 
pensa media para la resolucion de problemas con un horizonte infinito. Bellman y Drey¬ 
fus (1962) aportaron varios resultados adicionales. La modificaciôn de la iteraciôn de 
politicas se debe a van Nunen (1976) y a Puterman y Shin (1978). Williams y Baird 
(1993) analizaron la iteraciôn de politicas asincrona y demostraron también la cota de 
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pérdida de la politica dada por la Ecuaciôn (17.9). El anâlisis del descuento en funciôn 
de las preferencias estacionarias se debe a Koopmans (1972). Los textos de Bertsekas 
(1987), Puterman (1994) y Bertsekas y Tsitsiklis (1987) proporcionan una rigurosa in- 
troducciôn a los problemas de decision secuenciales. Papadimitriou y Tsitsiklis (1987) 
describen resultados sobre la complejidad computacional de los procesos de decision 
de Markov. 

Los trabajos fondamentales de Sutton (1988) y Watkins (1989) sobre métodos de 
aprendizaje por refuerzo para la resoluciôn de procesos de decision de Markov jugaron 
un papel relevante en la introducciôn de los procesos de decision de Markov en la comu- 
nidad de la IA, al igual que lo hizo posteriormente el estudio de Barto et al. (1995). (Un 
trabajo anterior de Werbos (1977) contenia muchas ideas similares pero no alcanzô la 
misma extension.) La conexiôn entre procesos de decision de Markov y los problemas 
de planificacion en IA se debe en primer lugar a Sven Koenig (1991), que demostrô como 
los operadores probabilistas de Strips proporcionaban una representaciôn concisa para 
los modelos de transicion (véase también Wellman (1990b)). Los intentas de utiliza- 
ciôn de un horizonte de büsqueda limitado y de estados abstractos para superar el pro- 
blema de la explosion combinatoria en grandes espacios de estados se deben a Dean et 
al. (1993) y Tash y Russell (1994). Las heuristicas basadas en el valor de informaciôn 
pueden emplearse para seleccionar areas del espacio de estados en los que una expan¬ 
sion local del horizonte ocasionarâ una mejora significativa en la calidad de la decision. 
Los agentes que utilizan esta aproximacion pueden adaptar su esfuerzo para tratar con 
la presiôn temporal y generar algunos comportamientos interesantes taies como el uso 
de «rutas marcadas» para encontrar sus caminos alrededor del espacio de estados râ- 
pidamente sin tener que recalcular las decisiones optimas en cada punto. Un trabajo re- 
ciente de Boutilier y otros (Boutilier et al., 2000, 2001) se ha centrado en la 
programaciôn dinâmica utilizando representaciones simbôlicas, tanto de los modelos 
de transicion como de las funciones de valor, con base en la formulaciôn proposicio- 
nal y de primer orden. 

La observaciôn de que un MPD parcialmente observable puede transformarse en un 
MPD convencional mediante el uso de estados de creencia se debe a Astrom (1965). El 
primer algoritmo completo para la soluciôn exacta de procesos de decision de Markov 
parcialmente observables fue propuesta por Edward Sondik (1971) en su tesis doctoral. 
(Un articulo posterior de Smallwood y Sondik (1973) présenta algunos errores, pero es 
mas comprensible.) Lovejoy (1991) estudio el estado del arte de los procesos de deci¬ 
sion de Markov parcialmente observables. La primera contribuciôn significativa dentro 
de la IA fue el algoritmo Witness (Cassandra et al., 1994; Kaelbling et al., 1998), una 
version mejorada de la iteraciôn de valores para PDMPO. Pronto surgieron otros algo- 
ritmos entre los que se encuentran la aproximacion de Hansen (1998), que construye in- 
crementalmente una polftica en forma de autômata de estados finito. Con esta 
representaciôn de la politica, el estado de creencia se corresponde directamente con un 
estado del autômata. Mediante una büsqueda anticipada y, en combinaciôn con un mues- 
treo de las observaciones posibles y los resultados de las acciones, pueden constmirse 
de forma aproximada soluciones optimas para un PDMPO (Keams et al., 2000; Ng y 
Jordan, 2000). El Capitulo 21 contiene trabajos adicionales sobre algoritmos de resolu¬ 
ciôn de procesos de decision parcialmente observables. 
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Dean y Kanazawa (1989a) propusieron las ideas bâsicas de una arquitectura de 
agentes basada en el uso de redes de decision dinâmicas. El libro de Dean y Wellman 
(1991) Planning and Control profundiza mucho mas, estableciendo conexiones entre mo- 
delos como las redes Bayesianas y de decision dinâmicas con la literatura sobre filtra- 
do de la teorfa de control clâsica. Tatman y Shachter (1990) mostraron como aplicar 
algoritmos de programacion dinâmica a las redes de decision dinâmicas. Russell (1998) 
explica varias vfas en que estos agentes pueden ampliarse e identifica varias lineas de 
investigacion abiertas. 

Las raices de la teorfa de juegos pueden establecerse con las propuestas hechas en 
el siglo xvn por Christiaan Huygens y Gottfried Leibniz para estudiar interacciones 
humanas de carâcter cooperativo y competitivo de forma cientifica y matemâtica. A 
lo largo del siglo xix, varios economistas crearon ejemplos matemâticos sencillos para 
analizar ejemplos concretos de situaciones competitivas. Los primeros resultados for- 
males de la teorfa de juegos se deben a Zermelo (1913) (que habla sugerido un ano 
antes una forma de büsqueda minimax para juegos, aunque incorrecta). Emile Borel 
(1921) introdujo la notaciôn de una estrategia mixta. John von Neumann (1928) pro- 
bo que todo juego de suma cero para dos jugadores tiene un equilibrio maximin den- 
tro de las estrategias mixtas y un valor bien definido. La colaboracion de von Neumann 
con el economista Oskar Morgenstern condujo a la publicacion en 1944 del libro The- 
ory of Gantes and Economie Behavior que sienta las bases de la teorfa de juegos. La 
publicacion del libro se retrasô por la escasez de papel en tiempos de la Segunda Gue- 
rra Mundial hasta que un miembro de la familia Rockefeller subvencionô personal- 
mente su publicacion. 

En 1950, a la edad de 21 anos, John Nash publico sus ideas relativas a equilibrios 
en juegos. Su definicion de una solucion en equilibrio, aunque originaria de Cournot 
(1838), paso a ser conocida como equilibrio Nash. Después de un largo perîodo de 
tiempo debido a la esquizofrenia que sufrio a partir de 1959, Nash fue galardonado 
con el premio Nobel en Economfa (junto con Reinhart Selten y John Harsanyi) en 
1994. 

Harsanyi (1967) describio el equilibrio de Bayes-Nash que posteriormente fue ana- 
lizado por Kadane y Larkey (1982). Binmore (1982) trata acerca de algunas cuestiones 
referidas al uso de la teorfa de juegos en el control de agentes. 

El dilema del prisionero fue inventado como un ejercicio de clase por Albert W. Tuc- 
ker en 1950 y fue analizado ampliamente por Axelrod (1985). Luce y Raiffa (1957) in- 
trodujeron los juegos reiterativos, mientras que Kuhn (1953) introdujo los juegos de 
informaciôn parcial. El primer algoritmo prâctico para juegos con informacion parcial 
fue desarrollado por Koller et al. (1996) en el âmbito de la IA; el artlculo de Koller y 
Pfeffer (1997) proporciona una introduccion amena a esta ârea y describe un sistema de 
trabajo para representar y resolver juegos secuenciales. La teorfa de juegos y los proce- 
sos de decision de Markov se combinan en la teorfa de juegos de Markov (Littman, 1994). 
Realmente, Shapley (1953) describio antes que Bellman el algoritmo de iteraciôn de va- 
lores, pero sus resultados no fueron ampliamente apreciados, quizâ porque se presenta- 
ron en el contexto de los juegos de Markov. Entre los libros acerca de la teorfa de juegos 
incluyen los escritos por Myerson (1991), Ludenberg y Tirole (1991) y Osborne y Ru- 
binstein (1994). 
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La tragedia de los mancomunados, problema que motiva el diseno de mecanismos, 
fue presentado por Hardin (1968). Hurwicz (1973) créé los fundamentos matemâticos 
para el diseno de mecanismos. Milgrom (1997) escribiô sobre la subasta del espectro elec- 
tromagnético que diseno. Las subastas pueden emplearse en planificacion (Hunsberger 
y Grosz, 2000) y planificacion de procesos (Rassenti et al., 1982). Varian (1995) da una 
pequena introducciôn con referencias a la literatura informâtica, y Rosenschein y Zlot- 
kin (1994) son autores de un extenso libro que incluye aplicaciones en la IA distribui- 
da. Otros trabajos sobre IA distribuida incluyen trabajos sobre Inteligencia Colectiva 
(Tumer y Wolpert, 2000) y control basado en mercados (Clearwater, 1996). Artlculos 
sobre cuestiones computacionales de las subastas aparecen a menudo en la publicaciôn 
ACM Conférences on Electronic Commerce. 



EJERCICIOS 

17.1 Para el mundo de 4 X 3 celdas mostrado en la Figura 17.1, calcule qué celdas pue- 
de alcanzar la secuencia de acciones [Arriba, Arriba, Derecha, Derecha, Derecha] si se 
parte de la posiciôn (1, 1) y con qué probabilidades. Explique cômo se relaciona este 
câlculo con la tarea de proyectar un modelo de Markov oculto. 


17.2 Suponga que definimos la utilidad de una secuencia de estados como la mâxi- 
ma recompensa obtenida en cualquiera de los estados de la secuencia. Demuestre que 
esta funcion de utilidad no tiene solucion para las preferencias estacionarias entre se- 
cuencias de estados. /Es posible définir una funcion de utilidad sobre los estados tal 
que, la toma de decision de acuerdo con el principio de MUE de un comportamiento 
ôptimo? 


17.3 /Puede cualquier problema de büsqueda finita trasladarse exactamente a un pro¬ 
blema de decision de Markov de tal forma que una solucion en este ültimo problema sea 
solucion optima del primera? Si es asf, explique precisamente como transformar el pro¬ 
blema y cômo transformar la solucion. Si no es asl, explique precisamente por qué no 
(es decir, de un contraejemplo). 


17.4 Considéré un PDM sin descuento que tiene très estados (1, 2, 3) con recompen¬ 
sas — 1, —2 y 0, respectivamente. El estado 3 es un estado terminal. En los estados 1 y 
2 se tienen dos posibles acciones: a y b. El modelo de transiciôn es el siguiente: 

• En el estado 1, la acciôn a mueve al agente al estado 2 con probabilidad 0,8 y hace 
permanecer al agente en la misma situaciôn con probabilidad 0,2. 

• En el estado 2, la acciôn a mueve al agente al estado 1 con probabilidad 0,8 y hace 
permanecer al agente en la misma situaciôn con probabilidad 0,2. 

• En cualquiera de los estados 1 y 2, la acciôn b mueve al agente al estado 3 con pro¬ 
babilidad 0,1 y mantiene al agente en el mismo estado con una probabilidad de 0,9. 

Conteste a las siguientes preguntas. 


a) Cualitativamente, /,qué puede decirse acerca de la polltica optima en los esta¬ 
dos 1 y 2? 
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b) Aplique la iteracion de politicas, mostrando por completo cada paso, para es- 
tablecer la politica ôptima y los valores de los estados 1 y 2. Suponga que la po¬ 
litica inicial tiene la accion b en ambos estados. 

c ) i,Qué sucede en la iteracion de politicas si la politica inicial tiene la accion a en 
ambos estados? £ Dépende la politica ôptima de un factor de descuento? 

17.5 En algunas ocasiones, los procesos de decision de Markov se formulan emple- 
ando una funciôn de recompensa R(s, a ) que dépende de la accion tomada o una fun- 
ciôn de recompensa R(s, a, s') que también dépende del estado résultante. 

a) Escriba las ecuaciones de Bellman para estos casos. 

b) Muestre cômo un PDM con funciôn de recompensa R(s, a, s') puede transfor- 
marse en un PDM diferente con funciôn de recompensa R(s, a ) de tal forma que 
las politicas ôptimas del nuevo PDM se corresponden exactamente con las po¬ 
liticas del PDM original 

c) Ahora haga lo mismo para convertir un PDM con R(s, a ) en un PDM con R (s). 

17.6 Considéré el mundo de 4 X 3 mostrado en la Figura 17.1 

a) Implemente un simulador de este entorno de tal forma que pueda cambiarse fâ- 
cilmente la geografia especifica del entorno. Parte del côdigo para hacer esto ya 
esta disponible en el repositorio de côdigo online. 

b) Disene un agente que utilice la iteracion de politicas y mida su rendimiento en 
el simulador del entorno a partir de varios estados de partida. Realice varios ex¬ 
périmentas a partir de cada estado de partida y compare la recompensa total me¬ 
dia obtenida por ejecuciôn con la utilidad del estado, también determinada por 
el algoritmo. 

c) Expérimente incrementando el tamano del entorno. / ; C6mo varia el tiempo de 
ejecuciôn de la iteracion de politicas con el tamano del entorno? 

17.7 Para el entorno mostrado en la Figura 17.1 encuentre todos los valores umbral de 
R(s) tal que la politica ôptima cambie cuando se crucen estos umbrales. Necesitarâ una 
forma de calcular la politica ôptima y su valor para una recompensa fija R(s). [Pista: prue- 
be que el valor de cualquier politica prefijada varia linealmente con /As)]. 

17.8 En este ejercicio consideraremos el proceso de decision de Markov de dos juga- 
dores que se corresponden con los juegos por turnos de suma cero como los vistos en el 
Capitulo 6. Sean A y B los jugadores y sea R(s) la recompensa para el jugador A en el 
estado 5. (La recompensa de B es siempre igual y opuesta.) 

a) Sea U A (s) la utilidad del estado s cuando A tiene el turno para mover en el es¬ 
tado s, y sea U B (s) la utilidad de 5 cuando le corresponde a B el turno de mover 
en s. Todas las recompensas y utilidades se calculan desde el punto de vista de 
A (al igual que en el ârbol minimax de juegos). Escriba las ecuaciones de Bell¬ 
man que definen U A (s) y U B (s). 

b) Explique cômo realizar la iteracion de valores para dos jugadores con estas ecua¬ 
ciones y defina un criterio de parada apropiado. 

c ) Considéré el juego descrito en la Figura 6.14. Dibuje el espacio de estados (me- 
jor que el ârbol del juego) mostrando los movimientos de A con lineas sôlidas 
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y los movimientos de B con lineas discontinuas. Marque cada estado con R(s). 
Encontrarâ ütil organizar los estados (s A , s B ) en una malla bidimensional usan- 
do s A y s B como «coordenadas.» 

d) Aplique ahora la iteraciôn de valores de dos jugadores para resolver este juego 
y derive/obtenga la politica ôptima. 

17.9 Muestre que un equilibrio de estrategia dominante es un equilibrio de Nash, pero 
no a la inversa. 

17.10 En el juego de ninos roca-papel-tijeras cada jugador muestra al mismo tiempo 
el objeto elegido entre roca, papel o tijeras. Los papeles envuelven a las rocas, las rocas 
embotan a las tijeras y las tijeras cortan papel. En la version extendida roca-papel-tije- 
ras-fuego-agua, el fuego gana a la roca, el papel y las tijeras; la roca, el papel y las tije¬ 
ras ganan al agua, y el agua gana al fuego. Escriba la matriz de balances finales y 
encuentre una solucion de estrategia mixta para este juego. 

17.11 Resuelva el juego «pares o nones» con très dedos. 

17.12 Antes de 1999, los equipos de la Liga Nacional de Hockey recibian dos puntos 
por una Victoria, uno por un empâte y cero por una dénota. /Es un juego de suma cons¬ 
tante? En 1999 se modificaron las réglas de forma que un equipo que pierda en la prô- 
noga recibe un punto. El equipo ganador continua obteniendo dos puntos. / Como cambia 
la respuesta a la pregunta anterior con estos cambios? Si fuera del todo legal, /cuândo sé¬ 
ria razonable que los dos equipos amanaran el partido para terminar empatados el parti- 
do en el tiempo reglamentario, para después disputar realmente la Victoria en la prôrroga? 
Suponga que la utilidad de cada equipo es el nümero de puntos que recibe y que existe 
una probabilidad a priori p de que el primer equipo gane en la pronoga (conocida por los 
dos equipos). /Para qué valores de p podrian llegar ambos equipos a este acuerdo? 

17.13 La siguiente matriz de balances finales, tomada de Blinder (1983) por parte 
de Bernstein (1996), muestra un juego entre politicos y la Réserva Fédéral de Estados 
Unidos. 



Fed: reducir 

Fed: no hacer nada 

Fed: aumentar 

Pol: reducir 

F = 7, P = 1 

F = 9, P = 4 

F = 6, P = 6 

Pol: no hacer nada 

F = 8, P = 2 

F = 5, P = 5 

F = 4, P = 9 

Pol: aumentar 

F = 3, P = 3 

F = 2, P = 1 

F = 1, P = 8 


Los politicos pueden aumentar o disminuir la presiôn fiscal mientras que la Réserva 
Fédéral puede controlar la politica monetaria (y por supuesto cada una de las partes 
puede no hacer nada). Cada parte tiene también preferencias acerca de quién deberia 
adoptar las medidas (ninguna de las partes quiere aparecer ante la opinion püblica como 
«el malo de la pelicula»). Los balances mostrados son simplemente una ordenaciôn: 
9 para la primera eleccion hasta 1 para la ültima eleccion. Encuentre el equilibrio de 
Nash para el juego en las estrategias puras. /Es esta una solucion ôptima en sentido 
Pareto? El lector deberia desear analizar las politicas de las administraciones recien- 
tes en este sentido. 










Aprendizaje 
de observaciones 


En este capîtulo se describen agentes que pueden mejorar su comportamiento 
estudiando sus propias experiencias. 


La idea del aprendizaje consiste en utilizar las percepciones no solo para actuar, sino tam- 
bién para mejorar la habilidad del agente para actuar en el futuro. El aprendizaje entra 
en juego cuando el agente observa sus interacciones con el mundo y sus procesos de toma 
de decisiones. Puede ir desde la trivial memorizaciôn de las experiencias, como mos- 
traba el agente del mundo de wumpus en el Capîtulo 10, hasta la creaciôn de teorias cien- 
tificas, como mostrô Albert Einstein. Este capîtulo describe el aprendizaje inductivo 
a partir de observaciones. En particular, se describe como aprender teorias sencillas en 
lôgica proposicional. Ademâs, se proporciona un anâlisis teôrico que explica por qué el 
aprendizaje inductivo funciona bien. 


18.1 Formas de aprendizaje 


En el Capîtulo 2, vimos que un agente de aprendizaje puede ser disenado con un ele- 
mento de acciôn, que décidé qué acciones llevar a cabo y con un elemento de apren¬ 
dizaje, que modifica el elemento de acciôn para poder tomar mejores decisiones. ( Véase 
Figura 2.15). Los investigadores en el campo del aprendizaje han creado una gran va- 
riedad de elementos de aprendizaje. Para comprenderlos, se mostrarâ como su diseno se 
ve afectado por el contexto en el que operan. El diseno de un elemento de aprendizaje 
se ve afectado mayoritariamente por très aspectos: 

• Qué componentes del elemento de acciôn tienen que aprenderse. 

• Qué realimentaciôn esta disponible para aprender dichos componentes. 

• Qué tipo de representaciôn se usa para los componentes. 
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APRENDIZAJE 

SUPERVISADO 


APRENDIZAJE NO 
SUPERVISADO 


A continuaciôn se van a analizar cada uno de estos aspectos. Como se ha mostrado, exis- 
ten muchas formas de construir el elemento de acciôn de un agente. En el Capitulo 2 se 
describen varios disenos de agentes (Figuras 2.9, 2.11, 2.13 y 2.14). Los componentes 
de estos agentes incluyen lo siguiente: 

1. Una proyecciôn directa de las condiciones del estado actual a las acciones. 

2. Un método para inferir las propiedades relevantes del mundo a partir de una se- 
cuencia de percepciones. 

3. Informaciôn sobre como evoluciona el mundo y sobre los resultados de las po- 
sibles acciones que el agente puede llevar a cabo. 

4. Informaciôn de utilidad, que indica lo deseables que son los estados. 

5. Informaciôn acciôn-valor, que indica lo deseables que son las acciones. 

6. Metas que describen las clases de estados que maximizan la utilidad del agente. 

Cada uno de estos componentes puede aprenderse con una realimentaciôn apropiada. 
Consideremos, por ejemplo, un agente entrenândose para convertirse en un taxista. Cada 
vez que el instructor grite «jFrene!», el agente puede aprender una régla condiciôn-ac- 
ciôn que le indique cuândo frenar (componente 1). Informando al agente de que ciertas 
imâgenes de câmaras contienen autobuses, puede aprender a reconocerlos (2). Realizando 
acciones y observando sus resultados (por ejemplo frenar bruscamente en pavimento mo- 
jado) puede aprender las consecuencias de sus acciones (3). Ademâs, si no recibe pro- 
pina de pasajeros tras una conducciôn brusca, puede aprender una componente ütil de 
su funciôn de utilidad (4). 

El tipo de realimentaciôn disponible para el aprendizaje normalmente es el factor 
mas importante a la hora de determinar la naturaleza del problema de aprendizaje que 
tiene que afrontar el agente. Se distinguen très distintos tipos de aprendizaje: supervi- 
sado, no supervisado y por refuerzo. 

El problema de aprendizaje supervisado consiste en aprender una funciôn a partir 
de ejemplos de sus entradas y sus salidas. Los casos (1), (2) y (3) son ejemplos de pro- 
blemas de aprendizaje supervisado. En el caso (1), el agente aprende la régla condiciôn- 
acciôn para frenar, esto es, una funciôn que a partir del estado généra una salida booleana 
(frenar o no frenar). En el caso (2), el agente aprende una funciôn que a partir de una 
imagen généra una salida booleana (si la imagen contiene o no un autobüs). En el caso 
(3), aprende una funciôn que a partir del estado y las acciones para frenar, généra la dis¬ 
tancia de parada expresada en pies. Nôtese que tanto en los casos (1) y (2), un profesor 
suministra el valor correcto de la salida de cada ejemplo; en el tercero, el valor de la sa¬ 
lida proviene de lo que el agente percibe. En entornos totalmente observables, el agen¬ 
te siempre puede observar los efectos de sus acciones, y por lo tanto, puede utilizar 
métodos de aprendizaje supervisado para aprender a predecirlos. En entornos que son 
parcialmente observables, el problema es mas dificil, ya que los efectos mas inmedia- 
tos pueden ser invisibles. 

El problema de aprendizaje no supervisado consiste en aprender a partir de patrones 
de entradas para los que no se especifican los valores de sus salidas. Por ejemplo, un agen¬ 
te taxista deberia desarrollar gradualmente los conceptos de «dias de trâfico bueno» y 
de «dias de trâfico malo», sin que le hayan sido dados ejemplos etiquetados de ello. Un 
agente de aprendizaje supervisado puro no puede aprender qué hacer, porque no tiene 
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APRENDIZAJE POR 
REFUERZO 

REFUERZO 


informaciôn de lo que es una acciôn correcta o un estado deseable. Principalmente se 
estudiarâ aprendizaje no supervisado en el contexto de los sistemas de razonamiento pro- 
babilistico (Capitulo 20). 

El problema del aprendizaje por refuerzo, que se describe en el Capitulo 21, es el 
mas general de las très categorfas. En vez de que un profesor indique al agente qué ha- 
cer, el agente de aprendizaje por refuerzo debe aprender a partir del refuerzo 1 . Por ejem- 
plo, la falta de propina al final del viaje (o una gran factura por golpear la parte trasera 
del coche de delante) da al agente algunas indicaciones de que su comportamiento no 
es el deseable. El aprendizaje por refuerzo tlpicamente incluye el subproblema de apren¬ 
der como se comporta el entorno. 

La forma de représentai • la informaciôn aprendida, también représenta un papel im¬ 
portante para determinar el algoritmo de aprendizaje. Cualquiera de los componentes de 
un agente puede ser representado usando cualquiera de los esquemas de representaciôn 
mostrados en este libro. Se han mostrado varios ejemplos: polinomios lineales con peso 
para representar funciones de utilidad en programas de teorla de juegos; sentencias en 
logica proposicional y de primer orden para todas las componentes de un agente lôgi- 
co; y descripciones probabillsticas, como Redes Bayesianas, para las componentes de 
inferencia de un agente basado en la teorfa de la decision. Se han ideado algoritmos efi- 
caces de aprendizaje para todos ellos. En este capitulo se mostrarân métodos para lôgi- 
ca proposicional, en el Capitulo 19 se describen métodos para logica de primer orden, 
y en el Capitulo 20 se tratan métodos para Redes Bayesianas y para redes de neuronas 
(que incluyen polinomios lineales como un caso especial). 

El factor mas importante en el diseno de sistemas de aprendizaje es la disponibili- 
dad de conocimiento a priori. La mayoria de los investigadores de aprendizaje en IA, 
ingenieria informâtica y psicologia han estudiado el caso en el que el agente comien- 
za sin informaciôn sobre lo que esta intentando aprender. Solo tiene acceso a los ejem¬ 
plos de sus experiencias. Aunque es un caso importante, no es por término medio el 
caso mas general. La mayoria del aprendizaje humano tiene lugar en un contexto con 
bastante conocimiento de base. Algunos psicôlogos y lingüistas reivindican que inclu- 
so los ninos recién nacidos poseen conocimiento del mundo. Verdad o no, no hay duda 
de que el conocimiento previo puede ayudar en gran medida en el aprendizaje. Un fi- 
sico examinando una pila de fotografias de una câmara de burbujas ( bubble-chamber ), 
podria ser capaz de inferir una teoria que afirmara la existencia de una nueva particu- 
la con una cierta masa y una cierta carga; sin embargo un critico de arte que examina 
la misma pila podria aprender ünicamente que el «artista» debe pertenecer a alguna cla- 
se de impresionismo abstracto. El Capitulo 19 muestra varios casos en los que se faci¬ 
lita el aprendizaje gracias a la existencia de conocimiento; también se muestra como 
el conocimiento puede ser recopilado para acelerar el proceso de toma de decisiones. 
El Capitulo 20 muestra como el conocimiento previo ayuda en el aprendizaje de teo- 
rias probabillsticas. 


1 El término recompensa, que también fue utilizado en el Capitulo 17, es un sinonimo de refuerzo. 
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18.2 Aprendizaje inductivo 


EJEMPLO 

INFERENCIA 
INDUCTIVA PU RA 

HIPÔTESIS 


GENERAUZACIÔN 

PROBLEMA DE 
INDUCCIÔN 


ESPACIO DE 
HIPOTESIS 


CONSISTENCIA 



NAVAJA DE OCKHAM 


Un algoritmo para aprendizaje supervisado determimstico recibe como entrada el valor 
correcto para determinados valores de una funcion desconocida y debe averiguar cuâl 
es la funcion o aproximarla. Siendo mas formates, se dice que un ejemplo es un par (x, 
/(x)), donde x es la entrada, y /(x) es la salida de la funcion /aplicada a x. La tarea de la 

inferencia inductiva pura (o inducciôn) es la siguiente: 

Dada una colecciôn de ejemplos de/, devolver una funcion h que aproxime a /. 

La funcion h se denomina hipôtesis. La razôn por la cual el aprendizaje es dificil, des- 
de un punto de vista conceptual, es que no es fâcil determinar si una funcion h es una 
buena aproximaciôn de /. Una buena hipôtesis estarâ bien generalizada si puede pre- 
decir ejemplos que no se conocen. Este es el problema de inducciôn fundamental, que 
ha sido estudiado durante siglos; el Apartado 18.5 aporta una soluciôn parcial. 

La Figura 18.1 muestra un ejemplo tipico: ajustar una funcion de una ünica varia¬ 
ble a una sérié de puntos dados. Los ejemplos son pares (x, /(x)), donde tanto x como 
/(x) son nümeros reales. Se elige el espacio de hipôtesis H (el conjunto de hipôtesis que 
se van a considerar) como el conjunto de polinomios de grado inferior o igual a k, por 
ejemplo 3x 2 + 2, x 17 — 4x 3 . La Figura 18.1 (a) muestra algunos datos para los que se pue¬ 
de ajustar de forma exacta una linea recta (un polinomio de grado 1). La lfnea se deno¬ 
mina hipôtesis consistente ya que verifica todos los datos. La Figura 18.1 (b) muestra 
un polinomio de mayor grado que también es consistente con los mismos datos. Esto 
ilustra la primera cuestiôn del aprendizaje inductivo: £Cômo elegir entre multiples hi¬ 
pôtesis consistentes? Una respuesta la proporciona la navaja de Ockham 2 : es preferi- 
ble la hipôtesis consistente con los datos que sea mas sencilla. Intuitivamente, tiene 
sentido, ya que las hipôtesis que no son tan sencillas como los datos van a fallar a la hora 
de extraer cualquier patron de los mismos. Définir qué es sencillo no es fâcil, pero pa- 
rece razonable decir que un polinomio de grado 1 es mas sencillo que uno de grado 12. 



Figura 18.1 (a) Ejemplos de pares (x, /(x)) y una hipôtesis lineal consistente. (b) Un polinomio 

de grado 7 como hipôtesis consistente para el mismo conjunto de datos. (c) Un conjunto de datos 
diferentes que admite un polinomio de grado 6 que ajusta de forma exacta o un encaje lineal apro- 
ximado. (d) Un encaje sinusoidal sencillo para el mismo conjunto de datos. 


2 

“ Nombre del filôsofo inglés del siglo xiv, William de Ockham. A veces se escribe como «Occam», quizâ 
por la traducciôn francesa, «Guillaume d’Occam». 
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REALIZABLE 

IRREALIZABLE 



La Figura 18.1 (c) muestra un segundo conjunto de datos. No existe una llnea recta 
consistente para este conjunto de datos; de hecho, requiere un polinomio de grado 6 (con 
siete parâmetros) para un ajuste exacto. Los datos estân formados por siete puntos, as! 
que el polinomio tiene tantos parâmetros como puntos forman los datos; por ello, no pa- 
rece encontrarse ningün patron en los datos y no esperamos una buena generalizaciôn. 
Séria mejor ajustar con una llnea recta, que no sea exactamente consistente, pero que per- 
mita hacer predicciones razonables. Esto équivale a aceptar la posibilidad de que la fun¬ 
ciôn verdadera sea no determinlstica (o algo similar, que las entradas reales no han sido 
observadas en su totalidad). Para funciones no deterministas , existe un inévitable com- 
promiso entre la complejidad de la hipôtesis y el grado de adecuaciôn de los datos. El 
Capltulo 20 explica como realizar este compromiso usando la teorla de la probabilidad. 

Se debe tener en mente que la posibilidad o la imposibilidad de encontrar una hipô- 
tesis consistente y sencilla dépende en gran medida del espacio de hipôtesis elegido. La 
Figura 18.1 (d) muestra que los datos de (c) pueden ajustarse en su totalidad mediante 
una sencilla funciôn de la forma ax + h + c sen(x). Este ejemplo muestra la importancia 
de la elecciôn del espacio de hipôtesis. Un espacio de hipôtesis formado por polinomios 
de grado finito no puede representar funciones sinusoidales con précision, as! que no se 
puede aprender con este espacio de hipôtesis a partir de datos sinusoidales. Se dice que 
un problema de aprendizaje es realizable si el espacio de hipôtesis contiene a la fun¬ 
ciôn verdadera; en otro caso, se dice que es irrealizable. Desgraciadamente, no siem- 
pre se puede determinar si un problema de aprendizaje es realizable, ya que la funciôn 
verdadera no se conoce. Una forma de evitar este problema es usar conocimiento a prio¬ 
ri para elegir un espacio de hipôtesis en el que sepamos que se encuentra la funciôn ver¬ 
dadera. Este tema se detalla en el Capitulo 19. 

Otro enfoque es utilizar un espacio de hipôtesis tan grande como sea posible. Por 
ejemplo, /por qué no permitir que H sea el conjunto de todas las mâquinas de Turing? 
Después de todo, toda funciôn computable puede ser representada por una mâquina de 
Turing. El problema de este enfoque es que no tiene en cuenta la complejidad compu- 
tacional del aprendizaje. Existe un compromiso entre la expresividad del espacio de hi¬ 
pôtesis y la complejidad de encontrar hipôtesis sencillas y consistentes dentro de este 
espacio. Por ejemplo, ajustar llneas rectas a los datos es muy sencillo; ajustar polino¬ 
mios de grado alto es mas complicado; y ajustar mâquinas de Turing es muy complica- 
do, ya que dada una mâquina de Turing, determinar si es consistente con los datos no es 
un problema, en general, decidible. Una segunda razôn para preferir espacios de hipô¬ 
tesis simples es que la hipôtesis résultante serâ sencilla de utilizar, es decir, serâ mâs râ- 
pido computar h(x) cuando h sea una funciôn lineal que cuando sea un programa de 
cualquier mâquina de Turing. 

Por estas razones, la mayoria de los trabajos en aprendizaje se han enfocado hacia 
representaciones relativamente simples. En este capitulo, nos concentramos en la lôgi- 
ca proposicional y lenguajes relacionados. El Capitulo 19 muestra la teoria de aprendi¬ 
zaje en lôgica de primer orden. Se mostrarâ que el compromiso entre expresividad y 
complejidad no es tan sencillo como parece a simple vista; es muy tipico el caso, como 
se vio en el Capitulo 8, de que un lenguaje expresivo haga posible una teoria sencilla 
para ajustarse a los datos, mientras que si se restringe la expresividad del lenguaje, cual¬ 
quier otra teoria consistente serâ mâs compleja. Por ejemplo, las réglas para el ajedrez 
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pueden ser expresadas con logica de primer orden con una o dos paginas, sin embargo 
se requieren miles de paginas cuando se expresan en logica proposicional. En estas ca- 
sos, deberia ser posible aprender mas râpido usando el lenguaje mas expresivo. 


18.3 Aprender ârboles de decision 


La induccion con ârboles de decision es uno de los métodos mas sencillos y con mas 
éxito para construir algoritmos de aprendizaje. Sirve como una buena introducciôn al area 
de aprendizaje inductivo, y es muy sencillo de implementar. Primero, se describen los 
ârboles de decision como herramienta de desarrollo, y luego se muestra como aprenderlos. 
Mientras tanto, se introducen ideas que aparecen en todas las âreas de aprendizaje in¬ 
ductivo. 


Ârboles de decision como herramienta de desarrollo 

Un ârbol de decision toma como entrada un objeto o una situaciôn descrita a través de 
un conjunto de atributos y devuelve una «decision»: el valor previsto de la salida dada 
la entrada. Los atributos de entrada pueden ser discretos o continuos. A partir de ahora, 
asumiremos entradas discretas. El valor de la salida puede ser a su vez discreto o conti- 
nuo; aprender una funcion de valores discretos se denomina clasifîcaciôn; aprender una 
funcion continua se denomina regresiôn. Nos concentraremos en clasificaciones boo- 
leanas, en las cuales cada ejemplo se clasifica como verdadero (positivo) o falso (ne- 
gativo). 

Un ârbol de decision desarrolla una secuencia de test para poder alcanzar una deci¬ 
sion. Cada nodo interno del ârbol corresponde con un test sobre el valor de una de las 
propiedades, y las ramas que salen del nodo estân etiquetadas con los posibles valores 
de dicha propiedad. Cada nodo hoja del ârbol représenta el valor que ha de ser devuel- 
to si dicho nodo hoja es alcanzado. La representacion en forma de ârboles de decision 
es muy natural para los humanos; en realidad muchos manuales que explican como ha- 
cer determinadas tareas (por ejemplo, reparar un coche) estân escritos en su totalidad 
como un ünico ârbol de decision abarcando cientos de pâginas. 

Un ejemplo sencillo se muestra en el problema de decidir si esperar por una mesa 
predicado meta en un restaurante. Aqui, el proposito es aprender una definicion para el predicado meta 
Esperar. Esto es un problema de aprendizaje, primero se tiene que establecer qué atri¬ 
butos estân disponibles para describir los ejemplos del dominio. En el Capitulo 19 se verâ 
como automatizar esta tarea; a partir de ahora, supondremos que vamos a decidir sobre 
la siguiente lista de atributos: 

1. Alternativa : si existe un restaurante adecuado altemativo cerca. 

2. Bar : si el restaurante tiene un ârea de bar confortable en la que se pueda 
esperar. 

3. VierlSab: verdad si es viemes o sâbado. 

4. Hambriento : si estamos hambrientos. 


ÂRBOLES DE DECISION 
ATRIBUTOS 

CLASIFICACION 

REGRESION 

POSITIVO 

NEGATIVO 
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5. Clientes : cuânta gente hay en el restaurante (puede tomar los valores: Ningu- 
no, Algunos y Lleno). 

6. Precio : el rango de precios del restaurante ($, $$, $$$). 

7. Lloviendo : si esta lloviendo fuera. 

8. Réserva: si se ha hecho una réserva. 

9. Tipo : la clase de restaurante (francés, italiano, tailandés, o hamburgueseria). 

10. TiempoEsperaEstimado: el tiempo de espera estimado por el dueno (0-10 mi¬ 
nutas, 10-30 minutas, 30-60 minutas, >60). 

En la Figura 18.2 se muestra el ârbol de decision que se ha utilizado. Téngase en cuen- 
ta que el ârbol no usa los atributos Precio y Tipo, de hecho se les considéra irrelevantes. 
Los ejemplos son procesados por el ârbol empezando en el nodo raiz y continuando por 
la rama apropiada hasta que se llega a un nodo hoja. Por ejemplo dado Clientes = Lle¬ 
no y TiempoEsperaEstimado = 0-10 se clasificarâ como positivo (es decir, si, se espe- 
rarâ por una mesa). 


Expresividad de los ârboles de decision 

Desde el punto de vista de la logica, cualquier hipotesis sobre el predicado meta Espe- 
rar, de un ârbol de decision particular, puede ser vista como una asercion de la forma: 

V s Esperar(s) <=> (P t (s) v • • • v P n (s)) 

donde cada condicion P[s), es una conjuncion de test que corresponde a un camino des¬ 
de la raiz del ârbol hasta una hoja con un resultado positivo. Aunque ésta parezca una 
sentencia de primer orden, de alguna forma es proposicional, porque contiene exacta- 



Figura 18.2 Un ârbol de decision para decidir si esperar por una mesa. 
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FUNCION DE PARIDAD 

FUNCIÔN MAYORIA 


mente una variable y todos los predicados son unarios. En realidad, el ârbol de decision 
describe una relaciôn entre Esperar y algunas combinaciones lôgicas de valores de atri- 
butos. No se puede utilizar un ârbol de decision para representar test que se refieran a 
dos o mas objetos diferentes, por ejemplo, 

3r 2 Cerca(r 2 , r) a Precio(r, p) a Precio{r 2 , p 2 ) a MasBarato(p 2 , p) 

(/ ; hay algün restaurante mas barato cerca?). Obviamente, se podrfa anadir otro atributo 
booleano con el nombre RestauranteMasBaratoCerca, pero séria intratable anadir to¬ 
dos los atributos. En el Capitulo 19 investigaremos mas sobre el problema de aprendi- 
zaje en la lôgica de predicados propiamente dicha. 

Los ârboles de decision pueden expresar exactamente lo mismo que los lenguajes 
de tipo proposicional; esto es, cualquier funciôn Booleana puede ser escrita como un âr¬ 
bol de decision. Esto se puede hacer de forma trivial, haciendo corresponder cada fila 
de la tabla de verdad con la funciôn correspondiente a cada camino del ârbol. Esto 11e- 
varia a un ârbol de decision con un crecimiento exponencial, ya que las filas de la tabla 
de verdad crecen de forma exponencial a medida que se introducen nuevos atributos. Ob¬ 
viamente, los ârboles de decision pueden representar muchas funciones con ârboles mu- 
cho mâs pequenos. 

Para muchos tipos de funciones, sin embargo, esto es realmente un problema. Por 
ejemplo, si la funciôn es la funciôn de paridad, que devuelve 1 si y solo si un numéro 
par de entradas es igual a 1, se necesitarâ un ârbol de decision de crecimiento exponen¬ 
cial. También trae dificultades el uso de un ârbol de decision para representar la funciôn 
mayoria, que devuelve 1 si mâs de la mitad de las entradas son 1. 

En otras palabras, los ârboles de decision son buenos para algunos tipos de funcio¬ 
nes y malos para otros. £ Existe algûn tipo de representaciôn que sea eficiente para to¬ 
dos los tipos de funciones? Desafortunadamente, la respuesta es no. Mostraremos esto 
de una forma general. Considéré el conjunto de todas las funciones Booleanas sobre n 
atributos. / Cuântas funciones diferentes hay en este conjunto? Es exactamente el nümero 
de tablas de verdad diferentes que podemos escribir, porque una funciôn se define por 
su tabla de verdad. La tabla de verdad tiene 2" filas, ya que cada caso de entrada viene 
descrito por n atributos. Podemos considerar la columna «respuesta» de la tabla como 
un nümero de 2” bits que define la funciôn. No importa qué representaciôn se utilice para 
la funciôn, algunas funciones (de hecho, casi todas) requerirân muchos bits para repre- 
sentarlas. 

Si se toman 2” bits para définir la funciôn, hay 2 2 funciones diferentes sobre n atri¬ 
butos. Es un nümero espantoso. Por ejemplo, con seis atributos Booleanos, hay 2 2 =18, 
466, 744, 073, 709, 551, 616 funciones diferentes para elegir. Necesitaremos algün al- 
goritmo ingenioso para encontrar hipôtesis consistentes en un espacio tan grande. 


Inducir ârboles de decision a partir de ejemplos 

Un ejemplo para un ârbol de decision booleano consiste en un vector de atributos 
de entrada, X, y en un ünico valor de salida booleano y. Un conjunto de ejemplos (Xj, 
y,)..., (X l2 , y l2 ) se muestra en la Figura 18.3. 
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CONJUNTO DE 
ENTRENAMIENTO 


Los ejemplos positivos son aquellos en los que la meta Esperar es verdadera (Xj, X 3 , ...); 
los ejemplos negativos son aquellos en los que es falsa (X,, X 5 ,El conjunto de ejem¬ 
plos compléta se denomina conjunto de entrenamiento. 

El problema de encontrar un ârbol de decision que sea consistente con el conjunto 
de entrenamiento puede parecer difïcil, pero, de hecho, existe una solucion trivial. Po- 
drfamos constmir simplemente un ârbol de decision que tenga un camino hasta una hoja 
para cada ejemplo, donde el camino comprueba cada atributo y sigue el valor que tiene 
en el ejemplo hasta llegar a una hoja que contiene la clasificacion del mismo. Cuando 
se proporciona el mismo ejemplo otra vez 3 , el ârbol de decision propondrâ la clasifica¬ 
cion correcta. jDesafortunadamente, no tendrâ mucho que decir sobre cualquier otro caso! 

El problema con este ârbol trivial es que memoriza exactamente las observaciones. 
No extrae ningün patron a partir de los ejemplos, y por lo tanto no se puede esperar que 
sea capaz de extrapolar a ejemplos que no le han sido proporcionados. Aplicando la na- 
vaja de Ockham, deberiamos encontrar en vez de este ârbol, el ârbol de decision mâs 
pequeno que sea consistente con los ejemplos. Desafortunadamente, para cualquier de- 
finicion razonable de «el mâs pequeno», encontrar el ârbol mâs pequeno es un proble¬ 
ma intratable. Sin embargo, con algunas heuristicas simples, se puede hacer un buen 
trabajo y encontrar un ârbol mâs bien pequeno. La idea bâsica del algoritmo Aprendi- 
zaje-Arbol-Decisiôn es realizar primero el test sobre el atributo mâs importante. Se con¬ 
sidéra como «atributo mâs importante» aquel que discrimina mâs claramente los ejemplos. 
De esta forma, esperamos obtener la clasificacion correcta con un nümero de test pequeno, 
es decir, que todos los caminos en el ârbol sean cortos y asi el ârbol completo serâ pe¬ 
queno. 


3 

' El mismo ejemplo o un ejemplo con la misma descripciôn (esta distincion es muy importante, volveremos 
a ella en el Capltulo 19). 
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La Figura 18.4 muestra como comienza el algoritmo. Hay 12 ejemplos de entrena- 
miento, que se clasifican en ejemplos positivos y negativos. Después, se décidé qué atribu- 
to utilizar como primer test en el ârbol. En la Figura 18.4(a) se observa que Tipo es un atributo 
pobre, porque nos déjà con cuatro resultados posibles, cada uno de los cuales tiene el mis- 
mo numéro de ejemplos positivos y negativos. Por otra parte, en la Figura 18.4(b) se obser¬ 
va que Clientes es un atributo bastante importante, porque si el valor es Ninguno o Algunos 
obtenemos conjuntos de ejemplos para los que se puede responder definitivamente (No y Si, 
respectivamente). Si el valor es Completo, obtenemos un conjunto de ejemplos mezclados. 
En general, después de que el primer atributo de test séparé los ejemplos, cada resulta- 
do constituye en si mismo un nuevo problema de aprendizaje del ârbol de decision con 
menos ejemplos y un atributo menos. Hay cuatro casos a considerar para estos proble- 
mas recursivos: 


RUIDO 


1. Si quedan ejemplos positivos y negativos, hay que elegir el mejor atributo para 
separarlos. La Figura 18.4(b) muestra como se ha utilizado el atributo Ham- 
briento para separar los ejemplos que quedan. 

2. Si todos los ejemplos restantes son positivos (o todos negativos), se ha finali- 
zado: se puede responder Si o No. La Figura 18.4(b) muestra ejemplos de este 
caso para los valores Ninguno y Algunos. 

3. Si no quedan ejemplos, significa que ningün ejemplo ha sido observado y se de- 
vuelve un valor por defecto calculado a partir de la clasificacion de la mayoria 
en el nodo padre. 

4. Si no quedan atributos, pero si ejemplos positivos y negativos, tenemos un pro¬ 
blema, ya que los ejemplos que quedan tienen exactamente la misma descrip- 
cion, pero clasificaciones diferentes. Esto sucede cuando alguno de los datos es 
incorrecto; diremos que hay ruido en los datos. También ocurre cuando los atri¬ 
butos no proporcionan suficiente informacion para describir completamente la 



Figura 18.4 Dividiendo los ejemplos mediante test sobre los atributos. (a) La division de Tipo 
no permite distinguir entre ejemplos negativos y positivos. (b) La division de Clientes hace un buen 
trabajo de separaciôn entre ejemplos positivos y negativos. Después de Clientes , Hambriento es un 
atributo apropiado para el segundo test. 
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situacion, o cuando el dominio no es determinista. Una forma sencilla de resolver 
el problema es utilizar el voto de la mayoria. 

En la Figura 18.5 se muestra el algoritmo Aprendizaje-Ârbol-Decision. Los detalles 
del método Elegir-Atributo se proporcionan en la siguiente subseccion. 

En la Figura 18.6 se muestra el ârbol final que se produce utilizando el conjunto de 
datos de los 12 ejemplos. El ârbol es claramente distinto del ârbol original de la Figura 
18.2, a pesar de que en realidad, los datos fueron generados por un agente utilizando el 
ârbol original. Se podria concluir que el algoritmo de aprendizaje no estâ realizando un 
buen trabajo en el aprendizaje de la funcion correcta. Sin embargo, ésta séria una con- 


funcion ApRENDiZAJE-ÂRBOL-DECisiÔN(£y'ÉW/:>/c«, atribs, por-defecto) devolver ârbol de decision 
entradas: ejemplos, conjunto de ejemplos 
atribs : conjunto de atributos 
por-defecto : valor por defecto del predicado meta 

si ejemplos estâ vacio entonces devolver por-defecto 

si no si todos los elementos de ejemplos tienen la misma clasiftcaciôn entonces 
devolver la clasiftcaciôn 

si no si atribs estâ vacio entonces devolver VALOR-\lAYORiA(e/E»!/A;,v) 

si no 

mejor <— Elegir ATRiBUTO(< 2 frifoî, ejemplos) 

arbol <— un nuevo ârbol de decision con nodo rafz mejor 

m Valor-Mayoria {ejemplosj) 

para cada valor v, de mejor hacer 

ejemplos , <— {elementos de ejemplos con mejor = v,-} 
subarbol *— AŸKENT>\LAm-ksBOL-'DEas\ôi>i{ejemplos j ,atribs-mejor,m) 
anadir una rama a arbol con la étiqueta v ; y el subârbol subarbol 
devolver arbol 


Figura 18.5 El algoritmo de aprendizaje del ârbol de decision. 


Ninguno/ 


rClientes? 


JJeno 



Hamburgueserfa 


Figura 18.6 Ârbol de decision inducido a partir del conjunto de entrenamiento de 12 ejemplos. 
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clusiôn errônea. El algoritmo de aprendizaje recibe los ejemplos, no la funcion correc- 
ta, y de hecho, su hipôtesis ( véase Figura 18.6) no solo es consistente con todos los ejem¬ 
plos, sino que ademâs es considerablemente mas sencilla que el ârbol original. El 
algoritmo de aprendizaje no tiene necesidad de incluir los test para Lloviendo y Réser¬ 
va, porque puede clasificar todos los ejemplos sin ellos. Ademâs, ha detectado un pa¬ 
tron insospechado: el primer autor esperarâ por comida tailandesa los fines de semana. 

Por supuesto, si hubiéramos reunido mas ejemplos, se habria inducido un ârbol mâs si- 
milar al original. El ârbol de la Figura 18.6 estâ destinado a cometer un error; por ejemplo, 
nunca se le ha presentado el caso de que el restaurante esté lleno y el tiempo de espera sea 
de 0-10 minutos. Para un caso donde Hambriento sea falso, el ârbol dice que no hay que 
esperar, pero yo (SR), desde luego esperaria. Esto lleva a una cuestiôn obvia: si el algorit¬ 
mo induce, a partir de los ejemplos, un ârbol consistente pero incorrecto, habria que pre- 
guntarse en qué medida es incorrecto este ârbol. Mostraremos como analizar esta pregunta 
de forma experimental, después de explicar los detalles del paso de selecciôn de atributo. 

Elecciôn de los atributos de test 

En aprendizaje de ârboles de decision, el esquema que se utiliza para seleccionar atri¬ 
butos estâ disenado para minimizar la profundidad del ârbol final. La idea es elegir el 
atributo que proporcione una clasificaciôn lo mâs exacta posible de los ejemplos. Un atri¬ 
buto perfecto divide los ejemplos en conjuntos que contienen solo ejemplos positivos o 
negativos. El atributo Clientes no es perfecto, pero es bastante adecuado. Un atributo ina- 
decuado, como Tipo, déjà el conjunto de ejemplos, aproximadamente, con la misma pro- 
porciôn de ejemplos positivos y negativos que el conjunto original. 

Todo lo que necesitamos, por lo tanto, es una medida formai de «bastante adecua¬ 
do» e «inadecuado», y podremos implementar la funcion Elegir-Atributo de la Figu¬ 
ra 18.5. La medida debe tener su valor mâximo cuando el atributo es perfecto, y su valor 
minimo cuando el atributo es inadecuado. Una medida adecuada es la cantidad espera- 
da de informaciôn proporcionada por el atributo, donde utilizamos el término en su sen- 
tido matemâtico, definido en primer lugar en Shannon y Weaver (1949). Para entender 
el concepto de informaciôn, se puede pensar en la respuesta a una pregunta, por ejem¬ 
plo, si una moneda caerâ de cara. La cantidad de informaciôn que contiene la respues¬ 
ta dépende del conocimiento que se tenga a priori, cuanto menos se sepa, mâs informaciôn 
proporcionarâ la respuesta. La teoria de la informaciôn mide el contenido de informa¬ 
ciôn en bits. Un bit de informaciôn es suficiente para responder una pregunta de tipo si!no 
sobre la que no se sabe nada, como el resultado del lanzamiento de una moneda equili- 
brada. En general, si las respuestas posibles v ; tienen probabilidades /Av,), el contenido 
de informaciôn / de la respuesta actual viene dado por: 


l(P( Vl ), ..., P(v„)) = 2 -p(v,.) log 2 P(V,.) 
1=1 


Para el caso del lanzamiento de una moneda equilibrada tendrfamos: 
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Si la moneda se manipula de forma que se obtenga cara el 99 por ciento de las veces que 
se lanza, tendriamos 7(1/100, 99/100) = 0,08 bits, como la probabilidad de obtener cara 
tiende a 1, la informacion de la respuesta actual tiende a 0. 

En el aprendizaje de ârboles de decision, nos preguntaremos cuâl es la clasificaciôn 
correcta de un ejemplo dado. Un ârbol de decision correcto podrâ responder a esta pre- 
gunta. Las proporciones de ejemplos positivos y negativos del conjunto de entrenamiento 
proporcionan una estimacion de las probabilidades de las posibles respuestas antes de 
que ningün atributo haya sido elegido para test. Suponiendo que el conjunto de entre¬ 
namiento contiene p ejemplos positivos y n ejemplos negativos, una estimacion de la in¬ 
formacion contenida en la respuesta correcta séria: 


p + n p + n 


P P n 

-logo--- 

p + n p + n p + n 


log 2 


p + n 


El conjunto de entrenamiento del ejemplo del restaurante de la Figura 18.3, tiene 
p — n = 6, por lo tanto, necesitamos un bit de informacion. 

Un test sobre un atributo simple A no nos proporcionarâ, por lo general, mucha in¬ 
formacion, pero si alguna. Podemos medir exactamente cuânta informacion proporcio- 
na, determinando cuânta informacion necesitaremos después de realizar el test. Cualquier 
atributo A divide el conjunto de entrenamiento E en subconjuntos E v ...E v de acuerdo con 
sus valores para A, donde A puede tener v valores distintos. Cada subconjunto £j tiene 
p t ejemplos positivos y n i ejemplos negativos, por lo tanto, si vamos por esta rama, ne¬ 
cesitaremos /( pjip t + n i ),nj(p i + n)) bits adicionales para responder la pregunta. Un 
ejemplo elegido aleatoriamente del conjunto de entrenamiento tiene el valor i-ésimo para 
el atributo con probabilidad (p i + «,)/(p + n), por lo tanto, después de hacer el test sobre 
el atributo A, en general necesitaremos 


GANANCIA DE 
INFORMACION 


Resto(A) = 


;=i p + n \Pi + H f 


Pi + », 


bits de informacion para clasificar el ejemplo. La ganancia de informacion del atribu¬ 
to de test es la diferencia entre la necesidad de informacion original y la nueva necesi- 
dad de informacion: 


Ganancia(A) = 7 


P » \ 

p + n ’ p + n J 


Resto(A) 


La heurfstica que se utiliza en la funciôn Elegir-Atributo consiste en elegir el atribu¬ 
to con mayor ganancia. Volviendo a los atributos considerados en la Figura 18.4, tene- 
mos: 


Ganancia(Clicntes) = 1 — 


2 4 6 2 4 ' 

-;<o,i) + -/(i,o ) + 


: 0,541 bits 


12 2 2 12 2 2 12 \4 4/ 12 4 4j 


= 0 


Ganancia(Tipo) = 1 — 
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CURVA DE 
APRENDIZAJE 


PEEKING 


Con lo que se confirma nuestra intuicion de que el atributo Clientes es mejor para se- 
parar los ejemplos. De hecho, Clientes tiene mayor ganancia que cualquiera de los de- 
mâs atributos que podrian ser elegidos como rafz por el algoritmo de aprendizaje de 
ârboles de decision. 


Valoraciôn de la calidad del algoritmo de aprendizaje 

Un algoritmo de aprendizaje es bueno si produce hipotesis que hacen un buen trabajo al 
predecir clasificaciones de ejemplos que no han sido observados. En el Apartado 18.5 
mostraremos cômo se puede estimar la calidad de una prediccion por adelantado. De mo- 
mento, veremos una metodologfa para calcular la calidad de una prediccion después de 
que ocurra el hecho que se ha predicho. 

Obviamente, una prediccion es buena si résulta cierta, por lo tanto, se puede calcu¬ 
lar la calidad de una hipotesis contrastando sus predicciones con la clasificacion correcta, 
una vez se conoce ésta. Esto se hace con un conjunto de ejemplos denominado conjunto 
de test. Si entrenamos utilizando todos los ejemplos disponibles, después necesitaremos 
algunos ejemplos mas para hacer el test, asf que es mas conveniente adoptar la siguien- 
te metodologfa: 

1. Recolectar un conjunto de ejemplos grande. 

2. Dividir el conjunto de ejemplos en dos conjuntos disjuntos: el conjunto de en- 
trenamiento y el conjunto de test. 

3. Aplicar el algoritmo de aprendizaje al conjunto de entrenamiento, generando la 
hipotesis h. 

4. Medir el porcentaje de ejemplos del conjunto de test que h clasifica correcta- 
mente. 

5. Repetir los pasos de 1 a 4 para conjuntos de entrenamiento de diferentes tama- 
nos y conjuntos de entrenamiento seleccionados aleatoriamente para cada ta- 
mano. 

El resultado de este procedimiento es un conjunto de datos que puede ser procesado para 
obtener la calidad media de prediccion como una funcion del tamano del conjunto de 
entrenamiento. Si dibujamos esta funcion en una grâfica, obtendremos lo que se déno¬ 
mma curva de aprendizaje del algoritmo para cada dominio concreto. En la Figura 18.7 
se muestra la curva de aprendizaje para el algoritmo Aprendizaje-Arbol-Decisiôn con 
el ejemplo del restaurante. Se puede observar que a medida que el conjunto de entrena¬ 
miento crece, la calidad de la prediccion se incrementa. (Por esta razon, este tipo de cur- 
vas se llaman también grâficas felices (happy graplis)). Este es un buen sfntoma de que, 
efectivamente, hay algün patron en los datos y el algoritmo de aprendizaje esta encon- 
trândolo. 

Obviamente, al algoritmo de aprendizaje no se le debe permitir «ver» los datos de test 
hasta que se utilizan para contrastar una hipotesis aprendida. Desafortunadamente, es muy 
fâcil caer en la trampa de «ojear» (peeking ) los datos de test. Esto tfpicamente sucede de 
la siguiente forma: un algoritmo de aprendizaje puede tener varios parâmetros que per- 
miten cambiar su comportamiento, por ejemplo, se pueden utilizar varios criterios dife- 
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Tamano del conjunto de entrenamiento 


Figura 18.7 Una curva de aprendizaje para el algoritmo de aprendizaje de ârboles de decision 
aplicado a 100 ejemplos del dominio del restaurante generados aleatoriamente. La grâfica résumé 
20 pruebas. 


rentes para elegir el siguiente atributo en el aprendizaje del ârbol de decision. Generamos 
hipotesis para diversos valores de los parâmetros, midiendo su proporciôn de aciertos fren- 
te al conjunto de test e informando sobre este valor para la mejor hipotesis. ;Se ha pro- 
ducido peekingl El motivo es que la hipotesis ha sido seleccionada tomando como base 
su calidad sobre el conjunto de test, por lo tanto, se ha filtrado informaciôn sobre el con¬ 
junto de test en el algoritmo de aprendizaje. La moraleja de todo esto es que cualquier 
proceso que suponga comparar la calidad de una hipotesis frente a un conjunto de test, 
debe utilizar un nuevo conjunto de test para medir la calidad de la hipotesis que finalmente 
se haya seleccionado. En la prâctica esto es muy complicado, por eso la gente continua 
haciendo experimentos sobre conjuntos de test contaminados. 


Ruido y sobreajuste 

Como ya se ha mostrado, si hay dos o mas ejemplos con la misma descripciôn (en tér- 
minos de los atributos), pero diferentes clasificaciones, el algoritmo Aprendizaje- 
Arbol-Decision fallarâ en la büsqueda de un ârbol de decision que sea consistente con 
todos los ejemplos. La soluciôn que se mencionô anteriormente consiste en tener en cada 
nodo hoja o bien la clasificacion de la mayorfa de su conjunto de ejemplos, si se requiere 
una hipotesis determimstica, o bien las probabilidades estimadas de cada clasificacion 
utilizando frecuencias relativas. Desafortunadamente, esto no es todo. Es bastante po- 
sible, y de hecho probable, que incluso cuando falta informaciôn vital, el algoritmo de 
aprendizaje de ârboles de decision encuentre un ârbol de decision consistente con todos 
los ejemplos. Esto pasa porque el algoritmo puede utilizar los atributos irrelevantes, si 
hay alguno, para hacer distinciones falsas entre los ejemplos. 

Considéré el problema de intentar predecir el resultado del lanzamiento de un dado. 
Suponga que se han llevado a cabo experimentos con varios dados durante un largo pe- 
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rîodo de tiempo y que los atributos que describen cada ejemplo de entrenamiento son 
los siguientes: 

1. Di'a: dia en que el dado fue lanzado (Lun, Mar, Mier, Jue). 

2. Mes: mes en que el dado fue lanzado (Ene o Feb). 

3. Color: color del dado (Rojo o Azul). 

Mientras dos ejemplos no tengan la misma descripciôn, el algoritmo Aprendizaje- 
Arbol-DecisiÔn encontrarâ una hipôtesis exacta. Cuantos mas atributos haya, mas pro¬ 
bable es que se pueda encontrar una hipôtesis exacta. Ninguna de estas hipôtesis sera 
totalmente falsa. Lo que nos gustaria es que Aprendizaje-Ârbol-Decisiôn devolviera 
un nodo hoja simple con probabilidades cercanas a 1/6 para cada lanzamiento, utilizan- 
do suficientes ejemplos de entrenamiento. 

Hay que tener cuidado de no utilizar el grado de libertad que aparece cuando hay un 
conjunto grande de hipôtesis posibles, para encontrar «regularidades» poco significati- 
vas en los datos. Este problema se denomina sobreajuste. El sobreajuste es un fenômeno 
muy generalizado que ocurre cuando la funciôn principal no es del todo aleatoria. Afec- 
ta a todos los tipos de algoritmos de aprendizaje, no solo a los ârboles de decision. 

El tratamiento matemâtico completo del sobreajuste esta fuera del âmbito de este li¬ 
bre. Aqui presentamos para afrontar el problema una técnica sencilla denominada poda 
del ârbol de decision. La poda funciona impidiendo divisiones recursivas sobre atribu¬ 
tos que no son claramente relevantes, incluso cuando los datos en ese nodo del ârbol no 
estén clasificados de forma uniforme. La pregunta es: /cômo se détecta un atributo irre¬ 
levante? 

Suponga que dividimos el conjunto de ejemplos utilizando un atributo irrelevante. 
Generalmente, esperaremos que los subconjuntos résultantes tengan aproximadamente 
la misma proporciôn de cada clase que el conjunto original. En este caso, la ganancia 
de informaciôn sera cercana a cero 4 . Asi, la ganancia de informaciôn es una buena in- 
dicaciôn de irrelevancia. Ahora la pregunta es: ^qué valor mmimo se debe exigir a la ga¬ 
nancia para hacer la division sobre un atributo? 

Esta pregunta se puede responder utilizando un test de significancia estadistico. El 
test comienza asumiendo que no existe ningün patron en los datos (la denominada hi¬ 
pôtesis nula). Después, los datos actuales son analizados para calcular cuânto se des- 
vian de una ausencia perfecta de patron. Si el grado de desviaciôn es estadisticamente 
improbable (normalmente tomando como media un 5 por ciento de probabilidad o me- 
nos), enfonces se considéra que es una buena evidencia de la presencia de un patron sig- 
nificativo en los datos. Las probabilidades se calculan a partir de distribuciones estândar 
de la cantidad de desviaciôn que se esperaria en un muestreo aleatorio. 

En este caso, la hipôtesis nula es que el atributo es irrelevante, y por lo tanto, que la 
ganancia de informaciôn para un ejemplo infinitamente grande séria cero. Necesitamos 
calcular la probabilidad de que, bajo la hipôtesis nula, un ejemplo de tamano v exhiba 
la desviaciôn observada a partir de la distribuciôn esperada de ejemplos positivos y ne- 
gativos. Podemos medir la desviaciôn comparando el numéro real de ejemplos positi- 


4 De hecho, la ganancia de informaciôn sera positiva a menos que las proporciones sean todas exactamente 
la misma. (Véase Ejercicio 18.10). 
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vos y negativos en cada subconjunto, p i y n t , con los numéros esperados asumiendo irre- 
levancia real, y: 


Pt 


pX 


Pi + n i 
p + n 


n X 


Pi + r h 

p + n 


Una medida conveniente de la desviaciôn total viene dada por 

D = y (P, ~Â ) 2 , ("j-p ) 2 
i= 1 Pi P 

Bajo la hipôtesis nula, el valor de D se distribuye de acuerdo con la distribuciôn x 2 (chi- 
cuadrado) con v — 1 grados de libertad. La probabilidad de que el atributo sea realmente 
irrelevante se puede calcular con ayuda de las tablas de la / y 2 estândar, o con software es- 
tadistico. El Ejercicio 18.11 propone que se realicen los cambios oportunos en Aprendi- 
zaje-Ârbol-Decisiôn para implementar esta forma de poda, que se conoce como poda \ 2 . 

Con poda, el ruido se puede tolerar: los errores de clasificaciôn proporcionan un in- 
cremento lineal en la prediccion del error, mientras que los errores en la descripciôn de los 
ejemplos tienen un efecto asintôtico que es peor a medida que el ârbol se va reduciendo a 
conjuntos pequenos. Cuando los datos contienen mucho mido, los ârboles que se construyen 
con poda funcionan significativamente mejor que los que se construyen sin poda. Por lo 
general, los ârboles podados son mas pequenos y por lo tanto mas sencillos de entender. 

La validaciôn cruzada ( cross-validation ) es otra técnica que reduce el sobreajuste. 
Puede ser aplicada a cualquier algoritmo de aprendizaje, no solo a los ârboles de deci¬ 
sion. La idea bâsica es estimar la calidad de cada hipôtesis en la prediccion de datos no 
observados. Esto se hace separando una parte de datos conocidos y utilizândola para me- 
dir la calidad de la prediccion de una hipôtesis inducida a partir de los datos restantes. 
La validaciôn cruzada de K pasadas ( K-fold cross-validation ) consiste en realizar k ex¬ 
périmentas, dejando a un lado cada vez Hk de los datos para test y promediando los re- 
sultados. Los valores trpicos de k son 5 y 10. El extremo es k = n, también conocido como 
validaciôn cruzada omitiendo uno ( leave-one-out-cross-vaiidation ). La validaciôn cru¬ 
zada se puede utilizar en conjunciôn con cualquier método de construcciôn del ârbol (in- 
cluyendo poda) para seleccionar un ârbol con una calidad de prediccion buena. Para evitar 
el problema de peeking, debemos medir esta calidad con un nuevo conjunto de test. 


Extension de la aplicabilidad de los ârboles de decision 

Para extender la inducciôn de ârboles de decision a una mayor variedad de problemas 
es necesario tratar algunos aspectos que mencionaremos brevemente. Para un entendi- 
miento completo le sugerimos que realice los ejercicios asociados. 

• Datos perdidos: en muchos dominios no son conocidos todos los valores de los 
atributos para cada ejemplo. Los valores pueden haberse perdido, o puede que sea 
muy caro obtenerlos. Esto da lugar a dos problemas: primera, dado un ârbol de 
decision completo, /como se debe clasificar un objeto para el que no se conoce 
uno de sus atributos de test? Segundo, / como se debe modificar la formula de la 
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ganancia de informacion cuando algunos ejemplos tienen valores desconocidos para 
cierto atributo? Estas cuestiones se tratan en el Ejercicio 18.12. 

• Atributos multivaluados: cuando un atributo tiene muchos valores posibles, la ga¬ 
nancia de informacion proporciona una indicaciôn inapropiada de su utilidad. En el 
caso extremo, se podrfa utilizar un atributo, como NombreRestaurante, que tenga un 
valor diferente para cada ejemplo. En este caso, cada subconjunto de ejemplos tendra 
un ünico elemento con una ünica clasificacion, por lo tanto la medida de ganancia de 
informacion tendra su mâximo valor para este atributo. Sin embargo, el atributo pue- 

ratio de ganancia de ser irrelevante o inütil. Una soluciôn es utilizar el ratio de ganancia (Ejercicio 18.13). 

• Atributos de entrada continuos de valor entero: los atributos continuos de valor en¬ 
tera, como Altura o Peso, tienen un numéro infinito de valores posibles. Mas que ge- 
nerar infinitas ramas, los algoritmos de aprendizaje del ârbol de decision tfpicamcntc 

punto de ruptura cncucntran el punto de ruptura ( splitpoint) que proporciona la mâxima ganancia de 

informacion. Por ejemplo, en un nodo del ârbol se puede dar el caso de que el test so- 
br eAltura>160 proporcione la mayor informacion. Existen métodos de programaciôn 
dinâmica eficiente para encontrar puntos de ruptura, pero esta parte es, con diferen- 
cia, la mas ineficiente de las aplicaciones reales de aprendizaje de ârboles de decision. 

• Atributos de salida de valor continuo: si intentamos predecir un valor numéri- 
co, como el precio de una obra de arte, mas que una clasificacion discreta necesi- 

arbol de regresiôn tamos un arbol de regresiôn. Este tipo de ârbol tiene en cada hoja una funcion 

lineal de algün subconjunto de atributos numéricos, en vez de un valor simple. Por 
ejemplo, la rama para grabados pintados a mano puede terminar con una funcion 
lineal del ârea, edad y nümero de colores. El algoritmo de aprendizaje debe deci- 
dir cuândo dejar de dividir para comenzar a aplicar regresiôn lineal utilizando los 
atributos restantes (o algün subconjunto). 

Un sistema de aprendizaje de ârboles de decision para aplicaciones reales debe ser capaz 
de manejar todos estos problemas. El manejo de variables de valor continuo es especial- 
mente importante, porque tanto los procesos fîsicos como los financieros proporcionan 
datos numéricos. Se han construido algunos paquetes comerciales que utilizan estos cri- 
terios, y que han sido utilizados para desarrollar sistemas en muchos campos. En muchas 
âreas de industria y comercio, los ârboles de decision constituyen normalmente el primer 
método que se utiliza cuando el objetivo es extraer un método de clasificacion del con- 
junto de datos. Una propiedad importante de los ârboles de decision es que los humanos 
pueden entender la salida del algoritmo de aprendizaje. (Por supuesto, esto es un requi- 
sito legal para las decisiones financeras que son objeto de leyes de anti-discriminaciôn). 
Esta propiedad no la comparten las redes de neuronas ( véase Capltulo 20). 


18.4 Aprendizaje de conjuntos de hipotesis 


Hasta ahora hemos estudiado métodos de aprendizaje en los que para hacer prediccio- 
nes se utiliza una ünica hipotesis, elegida de un espacio de hipotesis. La idea de los mé- 
ensemble learning todos de aprendizaje de conjuntos de hipotesis (ensemble learning ) es seleccionar una 

colecciôn, o conjunto, del espacio de hipotesis y combinar sus predicciones. Por ejem- 
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plo, podemos generar cien ârboles de decision diferentes a partir del mismo conjunto de 
entrenamiento y votar por la mejor clasifïcaciôn para un nuevo ejemplo. 

La motivaciôn del aprendizaje de conjuntos de hipôtesis es sencilla. Considéré un con¬ 
junto de M = 5 hipôtesis y suponga que combinamos sus predicciones utilizando simple- 
mente el voto de la mayorîa. Para que el método de aprendizaje de conjuntos de hipôtesis 
clasifique mal un ejemplo, como mînimo très de las cinco hipôtesis lo tienen que clasifi- 
car mal. La esperanza es que esto sea menos probable que el hecho de que una ünica hi¬ 
pôtesis clasifique mal. Suponga que asumimos que cada hipôtesis h i de la colecciôn tiene 
un error de p, es decir, la probabilidad de que un ejemplo elegido aleatoriamente sea mal 
clasificado por h t es p. Ademâs, suponga que asumimos que los errores cometidos por cada 
hipôtesis son independientes. En este caso, si p es pequeno, la probabilidad de que se pro- 
duzca un gran numéro de errores de clasificaciôn es minüscula. Por ejemplo, un sencillo 
câlculo (Ejercicio 18.14) muestra que utilizando un conjunto de cinco hipôtesis se redu¬ 
ce la tasa de error de 1 sobre 10, a una tasa de error mas pequena que 1 sobre 100. Si bien, 
es obvio que la asunciôn de independencia no es razonable, porque es probable que las hi¬ 
pôtesis sean enganosas de la misma forma que lo son algunos aspectos de los datos de en¬ 
trenamiento. Pero si las hipôtesis son al menos un poco diferentes, reduciendo asf la 
correlaciôn entre sus errores, el aprendizaje de conjuntos de hipôtesis puede ser muy ütil. 

También se puede pensar en la idea de conjunto de hipôtesis como una forma gené- 
rica de ampliar el espacio de hipôtesis. Es decir, asumir que el conjunto de hipôtesis pro- 
piamente dicho es una hipôtesis y el nuevo espacio de hipôtesis es el conjunto de todos 
los posibles conjuntos que se pueden construir a partir de las hipôtesis del espacio ori¬ 
ginal. La Figura 18.8 muestra de qué forma esto puede dar lugar a un espacio de hipô¬ 
tesis mas expresivo. Si un algoritmo de aprendizaje que généra el conjunto de hipôtesis 
original es simple y eficiente, el método de conjuntos de hipôtesis proporciona una for- 



Figura 18.8 Ilustraciôn del incremento de la potencia expresiva obtenida con aprendizaje de con¬ 
juntos de hipôtesis. Tomamos très hipôtesis lineales, cada una de las cuales clasifica positivamen- 
te en la zona no sombreada, y se clasifica como positivo cualquier ejemplo clasificado positivamente 
por las très. La région triangular résultante es una hipôtesis que no se puede expresar en el espacio 
de hipôtesis original. 
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ma de aprender un tipo de hipotesis mucho mas expresivas, sin incurrir demasiado en 
un aumento de la complejidad computacional o algorftmica. 

El método de conjuntos de hipotesis mas comünmente utilizado es el denominado 
boosting (propulsion). Para entender cômo funciona, es necesario explicar primero la 
idea de conjunto de entrenamiento con pesos ( weighted training set). En este tipo de 
conjunto de entrenamiento cada ejemplo lleva asociado un peso w. £ 0. Cuanto mayor 
sea el peso de un ejemplo, mas importancia tiene éste durante el aprendizaje de una hi¬ 
potesis. Es sencillo modificar los algoritmos de aprendizaje que hemos visto hasta aho- 
ra para que operen con conjuntos de entrenamiento con pesos 5 . 

El boosting comienza con w. = 1 para todos los ejemplos (es decir, con un conjunto 
de entrenamiento normal). A partir de este conjunto, généra la primera hipotesis, /q. Esta 
hipotesis clasificarâ correctamente algunos de los ejemplos de entrenamiento, e inco- 
rrectamente otros. Nos gustaria que la siguiente hipotesis realizara un mejor trabajo con 
los ejemplos mal clasificados, para ello incrementamos sus pesos y decrementamos los 
pesos de los ejemplos que han sido correctamente clasificados. A partir de este conjun¬ 
to de entrenamiento con nuevos pesos, generamos la hipotesis h 2 . El proceso continüa 
de esta forma hasta que se han generado M hipotesis, donde M es una entrada del algo- 
ritmo de boosting. El conjunto final de hipotesis es una combinacion ponderada de to- 
das las hipotesis de M, donde el peso de cada una es una funciôn de lo bien que clasifica 
el conjunto de entrenamiento. La Figura 18.9 muestra el funcionamiento del algoritmo 



Figura 18.9 Funcionamiento del algoritmo de boosting. Cada rectângulo sombreado correspon¬ 
de a un ejemplo; la altura del rectângulo équivale al peso. Los simbolos V y X indican si el ejem¬ 
plo ha sido clasiftcado correctamente o no por la hipotesis actual. El tamano del ârbol de decision 
indica el peso de esta hipotesis en la colecciôn final de hipotesis. 


5 Para algoritmos de aprendizaje en los que esto no es posible, se puede crear una réplica del conjunto de 
entrenamiento donde el ejemplo i-ésimo aparece vq veces, utilizando aleatoriedad para manejar pesos frac- 
cionarios. 
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desde un punto de vista conceptual. Existen muchas variantes de la idea bâsica de boos- 
ting, que utilizan diferentes formas de ajustar los pesos y combinar las hipotesis. En la 
Figura 1 8 . 10 se muestra un algoritmo especifico denominado AdaBoost. Aunque los de- 
talles sobre el ajuste de pesos no son muy importantes, AdaBoost tiene una propiedad 
muy importante: si el algoritmo de aprendizaje de entrada L es un algoritmo de apren- 
dizaje débil, lo que significa que L siempre devuelve una hipotesis con un error sobre el 
conjunto de entrenamiento que es ligeramente mejor que una suposiciôn aleatoria (es de- 
cir, 50 por ciento para clasificaciôn booleana), el AdaBoost devolverâ una hipotesis que 
clasifica los datos de entrenamiento perfectamente para M suficientemente grande. Asi, 
el algoritmo aumenta la précision sobre los datos de entrenamiento del algoritmo origi¬ 
nal. Este resultado se mantiene siempre, sin verse afectado por la inexpresividad del es- 
pacio de hipotesis original ni por la complejidad de la funciôn que esté siendo aprendida. 

Veamos como funciona el boosting sobre los datos del restaurante. Elegiremos como 
espacio de hipotesis original el conjunto de los ârboles de decision con exactamente un 
test en la raiz (decision stumps). La curva que aparece por debajo en la Figura 18.11 (a) 
muestra que sin utilizar boosting, estos ârboles no son muy efectivos para este conjunto 
de datos, alcanzândose un acierto de la predicciôn de solo el 81 por ciento de 100 ejem- 
plos de entrenamiento. Cuando se aplica boosting (con M = 5), la proporciôn de acier- 
tos mejora, llegando al 93 por ciento después de 100 ejemplos. 

El incremento del tamano del conjunto M, da lugar a algo interesante. La Figura 
18.11 (b) muestra la précision del conjunto de entrenamiento (sobre 100 ejemplos) 
como una funciôn de M. Nôtese que el error llega a ser cero (como dice el teorema de 
boosting ) cuando M es 20; es decir, una combinaciôn ponderada de 20 decision stumps 


funciôn ADABOOST ( ejemplos , L, M) devuelve hipotesis ponderada 
entrada: ejemplos, conjunto de A ejemplos etiquetados ( x It yj),...,{x N , y N ) 

L, un algoritmo de aprendizaje 

M, numéro de hipotesis en el conjunto de hipotesis 

variables locales: w, un vector de A pesos para los ejemplos, inicialmente cada uno es 1/A 
h, un vector de M hipotesis 
z, un vector de M pesos para las hipotesis 

para m = 1 a M hacer 

h [m] <— L(ejemplos,w) 
error <— 0 

para y = 1 a A hacer 

si h [m\(x) A y j entonces error *— error + w[y] 

para j = 1 a A hacer 

si h \m\{xl) = y . entonces w[/j <— w[/] • error / ( 1 — error ) 
w <— Normalizar(w) 
z [m] <— log(l -error) / error 
devolver Mayorîa-PonderadaOi, z) 


Figura 18.10 La variante AdaBoost del método de boosting para aprendizaje de conjuntos de 
hipotesis. El algoritmo combina hipotesis. 

La funciôn mayoria-Ponderada généra una hipotesis que devuelve el valor de salida con el 
voto mas alto, a partir de las hipotesis en h, y con los pesos para cada voto indicados por z. 
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Figura 18.11 (a) Grâfico que muestra el rendimiento de los decision stumps con boosting para M = 5 

y el ejemplo del restaurante, (b) Proportion correcta en el conjunto de entrenamiento y en el de test, 
como una funcion de M, el numéro de hipôtesis en el conjunto de hipôtesis. Observe que la précision 
del conjunto de test mejora ligeramente incluso después de que la précision del conjunto de test al- 
cance 1, es decir, después de que el conjunto de hipôtesis encaje exactamente con los datos. 


es suficiente para clasificar exactamente los 100 ejemplos. Si se anaden mas decision 
stumps al conjunto, el error permanece en cero. La grâfica también muestra que la pré¬ 
cision del conjunto de test continua incrementândose después de que el error en el 
conjunto de entrenamiento haya llegado a cero. Con M = 20, la précision del test es 
0,95 (o 0,05 de error), y aumenta a 0,98 cuando M = 137, antes de bajar gradualmente 
a 0,95. 

Este hallazgo, que es bastante robusto a través de conjuntos de datos y espacios de 
hipôtesis, fue muy sorprendente cuando se observé por primera vez. La navaja de Oc- 
kham indica que es mejor no hacer hipôtesis mas complejas de lo necesario, sin embar¬ 
go, la grâfica indica que la predicciôn mejora a medida que el conjunto de hipôtesis se 
hace mas complejo. Se han propuesto algunas explicaciones de esto. Una explicaciôn 
es que el boosting aproxima el aprendizaje Bayesiano ( véase Capitulo 20), del que se 
puede demostrar que es un algoritmo de aprendizaje ôptimo, y la aproximaciôn mejora 
a medida que se anaden mas hipôtesis. Otra explicaciôn posible es que la adiciôn de mas 
hipôtesis permite que el conjunto de hipôtesis discrimine mas claramente entre ejemplos 
positivos y negativos, lo cual ayuda a la hora de clasificar nuevos ejemplos. 


18.5 <;Por qué funciona el aprendizaje?: teoria 
computacional del aprendizaje 


En el Apartado 18.2 quedô pendiente la siguiente cuestiôn: /como podemos estar segu- 
ros de que la teoria que ha generado el algoritmo de aprendizaje predecirâ correctamente 
el future? En términos formales, /como sabremos que la hipôtesis h esta cercana a la 
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TEORIA 

COMPUTACIONAL DEL 
APRENDIZAJE 



APROXIMACION 
CORRECTA PROBABLE 


PAC-APRENDIZAJE 


ESTACIONARIA 


ERROR 


funcion objetivo/si no conocemos /? Estas preguntas han sido meditadas durante siglos. 
Hasta que se encuentre respuesta para ellas, el aprendizaje automâtico estarâ pregun- 
tândose por sus propios éxitos. 

El enfoque tomado en esta secciôn se basa en la teori'a computacional del apren¬ 
dizaje, un campo entre la IA, la estadlstica y la informâtica teôrica. El principio fonda¬ 
mental es el siguiente: cualquier hipôtesis que sea muy errônea serâ descubierta con 
una probabilidad alta después de un numéro pequeno de ejemplos, ya que realizarâ una 
predicciôn incorrecta. Por ello, es improbable que cualquier hipôtesis que es consistente 
con un conjunto suficientemente grande de ejemplos de entrenamiento, sea muy errô¬ 
nea: es decir, debe ser una aproximaciôn correcta probable (PAC). Cualquier algorit- 
mo de aprendizaje que devuelve hipôtesis que sean una aproximaciôn correcta probable 
se denomina algoritmo de PAC-aprendizaje ( PAC-learning ). 

En el argumenta anterior existen algunas sutilezas. La principal cuestiôn es la cone- 
xiôn entre el conjunto de ejemplos de entrenamiento y de test; después de todo, queremos 
que la hipôtesis sea aproximadamente correcta en el conjunto de test, no solo en el con¬ 
junto de entrenamiento. La suposiciôn clave es que los conjuntos de ejemplos de entre¬ 
namiento y de test son elegidos de forma fortuita e independiente a partir del mismo 
conjunto de ejemplos que siguen una misma distribuciôn de probabilidad. Esta se deno¬ 
mina suposiciôn estacionaria. Sin la suposiciôn estacionaria, la teorfa no podrfa hacer nin- 
guna predicciôn acerca del future, porque no existirfa la conexiôn necesaria entre el futuro 
y el pasado. La suposiciôn estacionaria équivale a suponer que el proceso de selecciôn de 
ejemplos no es malévolo. Obviamente, si el conjunto de entrenamiento esta formado solo 
por ejemplos extranos (perros con dos cabezas, por ejemplo) el algoritmo de aprendizaje 
no podrâ ayudar, ya que harâ generalizaciones sin éxito para reconocer perros. 


,;Cuântos ejemplos se necesitan? 

Para poner en prâctica lo anterior, necesitaremos algunas notaciones: 

• Sea X el conjunto de todos los posibles ejemplos. 

• Sea D la distribuciôn, a partir de la cual los ejemplos son escogidos. 

• Sea H el conjunto de las hipôtesis posibles. 

• Sea N el nümero de ejemplos en el conjunto de entrenamiento. 

Inicialmente, asumiremos que la funcion verdadera/pertenece a H. Ahora, podemos dé¬ 
finir el error de una hipôtesis h con respecto a la funcion verdadera /, dada una distri¬ 
buciôn D sobre los ejemplos, como la probabilidad que h sea diferente de /con respecto 
a un ejemplo: 

error(/z) = P (h(x) A/(x )\x se obtiene a partir de D) 

Esta es la misma cantidad medida experimentalmente por las curvas de aprendizaje que 
se mostraron anteriormente. 

Una hipôtesis h se denomina aproximadamente correcta si error(/z) < e, donde e 
es una constante pequena. Pretendemos mostrar que después de observar N ejemplos, 
con probabilidad alta, todas las hipôtesis consistentes serân aproximadamente correc- 
tas. Se puede pensar que una hipôtesis aproximadamente correcta estarâ «cerca» de la 
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ff-BOLA 


COMPLEJIDAD DE 
MUESTRA 


funciôn verdadera en el espacio de hipotesis: caerâ dentro de lo que se denomina la 
6-bol a alrededor de la funciôn verdadera /. La Figura 18.12 muestra el conjunto de to- 
das las hipotesis H, dividido en la zona que cubre la e-bola alrededor de/y el resto, que 
denominaremos H mala . 

A continuaciôn se muestra cômo podemos calcular la probabilidad de que una hi- 
pôtesis «seriamente errônea» h b e H mala sea consistente con los N primeras ejemplos. Sa- 
bemos que error (h b ) > e. Por ello, la probabilidad de que se ajuste a un ejemplo dado es 
de al menos 1 — e. El limite para N ejemplos es 

P(h b se ajuste a N ejemplos) < ( 1 — e) N 

La probabilidad de que H mala contenga al menos una hipotesis consistente esta limitada 
por la suma de las probabilidades individuales: 

P(H ma j a contenga una hipotesis consistente) < |H mala |(l — e) N < |H|(1 — ef , 

donde se ha tenido en cuenta el hecho de que |H mala | < |H|. Buscamos que la probabili¬ 
dad de que esto suceda quede por debajo de un numéro pequeno S: 

|H|(l-ef <ô 

Dado que 1 — e < e~ e , podemos conseguirlo si entrenamos el algoritmo con el siguien- 
te numéro de ejemplos: 


1 

N>- 

e 


ln - + ln H 

.5 


(18.1) 


por ello, si un algoritmo de aprendizaje devuelve una hipotesis que es consistente con 
bastantes ejemplos, con probabilidad de al menos 1 — S, comete como mâximo un error 
e. En otras palabras, es una aproximaciôn correcta probable. El numéro de ejemplos que 
se requieren, en funciôn de e y S, se denomina complejidad de la muestra del espacio 
de hipotesis. 


H 



Figura 18.12 Diagrama esquemâtico del espacio de hipotesis, mostrando la zona que cubre la e- 
bola alrededor de la funciôn /. 
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Esto demuestra que la cuestiôn clave es el tamano del espacio de hipotesis. Como 
se mostro anteriormente, si H es el conjunto de todas las funciones Booleanas sobre n 
atributos, entonces |H| = 2 2 ”. De este modo, la complejidad de la muestra del espacio au- 
menta hasta 2". Ya que el numéro de posibles ejemplos es también 2", cualquier algo- 
ritmo de aprendizaje para el espacio de todas las funciones Booleanas, que devuelva 
simplemente una hipotesis consistente con todos los ejemplos conocidos, no se com- 
portarâ mejor que una tabla de büsqueda (lookup table). Otra forma de verlo es obser- 
var que para cualquier ejemplo con el que no se haya entrenado, serân tan consistentes 
aquellas hipotesis del espacio de hipotesis que lo clasifican como positivo, como las que 
lo clasifican como negativo. 

El dilema al que nos enfrentamos es que, a menos que restrinjamos el espacio de fun¬ 
ciones que el algoritmo considéra, éste no va a ser capaz de aprender; pero si restringi- 
mos el espacio, podriamos eliminar la funcion verdadera. Existen dos modos de 
«escapamos» de este dilema. El primer modo es exigir que el algoritmo devuelva no solo 
cualquier hipotesis consistente, sino preferiblemente la mas sencilla (como se hacia en el 
aprendizaje de ârboles de decision). El anâlisis teorico de estos algoritmos esta fuera del 
alcance de este libro, pero en los casos en los que es tratable encontrar hipotesis consis¬ 
tentes sencillas, los resultados de la complejidad de la muestra son generalmente mejo- 
res que el anâlisis basado solo en la consistencia. El segundo modo, que se muestra aqui, 
es centramos en el aprendizaje de subconjuntos del conjunto total de las funciones Boo¬ 
leanas. La idea es que en la mayoria de los casos no necesitamos el poder total de ex- 
presividad de las funciones Booleanas, y podemos trabajar con lenguajes mas restrictivos. 
A continuacion, examinamos con mas detalle uno de estos lenguajes restringidos. 

Aprendizaje de listas de decision 

lista de decision Una lista de decision es una expresiôn lôgica de un formulario restringido. Esta formada 
por una sérié de test, cada uno de los cuales es una conjuncion de literales. Si el test tie- 
ne éxito cuando se aplica a una descripcion de un ejemplo, la lista de decision especifi- 
ca el valor a ser devuelto. Si el test falla, el proceso continüa con el siguiente test de la 
lista 6 . Las listas de decision se parecen a los ârboles de decision, pero su estructura com¬ 
pléta es mâs sencilla. En contraste, los test individuales son mâs complejos. La Figura 
18.13 muestra una lista de decision que représenta la siguiente hipotesis: 

Vx Esperar(x) <=> Cliente six, Algunos) v ( Clientes(x , LIeno ) a Vier/Sab(x )) 



Figura 18.13 Una lista de decision para el problema del restaurante. 


6 Una lista de decision es por ello idéntica en estructura a una sentencia COND en Lisp. 
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K-DL 

K-01 


Si permitimos test de tamano arbitrario, las listas de decision pueden representar cual- 
quier funcion Booleana (Ejercicio 18.15). Por otro lado, si restringimos el tamano de cada 
test a como mâximo k literales, es posible para el algoritmo de aprendizaje generalizar 
con éxito a partir de un numéro pequeno de ejemplos. A este lenguaje le denominamos 
UDL. El ejemplo de la Figura 18.13 esta en 2-DL. Es fâcil mostrar (Ejercicio 18.15) que 
&-DL incluye como un subconjunto el lenguaje A-DT, el conjunto de todos los ârboles 
de decision de profundidad mâxima k. Es importante recordar que el lenguaje referen- 
ciado por UDL dépende de los atributos que se han utilizado para describir los ejem¬ 
plos. Usaremos la notacion /c-DL(n) para denotar a los lenguajes k- DL que utilizan n 
atributos Booleanos. 

La primera tarea es mostrar que A-DL se puede aprender, es decir, que cualquier fun¬ 
cion en A-DL puede ser aproximada con précision después del entrenamiento con un 
nümero razonable de ejemplos. Para hacer esto, necesitamos calcular el nümero de hi- 
potesis en el lenguaje. Sea Conj(n,k) el lenguaje de test, conjunciones de como mâxi¬ 
mo k literales usando n atributos. Ya que una lista de decision se construye a partir de 
test, y dado que a cada test se le puede asignar un resultado de Si o No, o puede estar 
fuera de la lista de decision, existen como mue ho ^ ConJ<n,k ^ conjuntos distintos de test 
componentes. Cada uno de estos conjuntos de test pueden estar en cualquier orden, asi 
que 

\k-DL(n)\ < 3 \ Con & n ’ k) \\Conj(n,k )| ! 

El nümero de conjunciones de k literales a partir de n atributos viene dado por 

k (2n\ 

\Conj(n, k)\ = 21 I = 0(n k ) 

Por lo tanto, después de algunos câlculos, obtenemos 

\k-DL(n)\ = 2 0(nn °^ nt)) 

Podemos introducirlo en la Ecuacion (18.1) para mostrar que el nümero de ejemplos que 
se necesitan para el PAC-aprendizaje de una funcion A-DL es polinomico en n : 

Por ello, cualquier algoritmo que devuelva una lista de decision consistente haciendo uso 
del PAC-aprendizaje aprenderâ una funcion A-DL con un nümero razonable de ejemplos, 
para k pequenas. 

La siguiente tarea es encontrar un algoritmo eficiente que devuelva una lista de de¬ 
cision consistente. Utilizaremos un algoritmo voraz denominado Aprendizaje-Lista- 
decisiôn, que repetidas veces encuentra un test que verifica con exactitud algün 
subconjunto del conjunto de entrenamiento. Una vez que se encuentra dicho test, lo 
anade a la lista de decision que se esta construyendo y élimina los correspondientes 
ejemplos. Luego, construye el resto de la lista de decision, haciendo uso solo de los 
ejemplos restantes. Esto se repite hasta que no hay ejemplos. El algoritmo se muestra 
en la Figura 18.14. 


1 


1 


N > — ln — + 0{n k log. 
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funciôn Aprendizaje-Lista-Decisiôn ( ejemplos ) devuelve una lista de decision, o fallo 

si ejemplos esta vacia entonces devolver la lista de decision trivial No 
t <— un test que encaje un subconjunto no vacio de ejemplos, de ejemplos de forma 
que los elementos de ejemplos, sean todos positivos o todos negativos 
si no se puede formai - t entonces fallo 

si los ejemplos en ejemplos, son positivos entonces r *— Si si no r *— No 
devolver la lista de decision con el test inicial t y resultado r y los restantes test dados por 
Aprendizaje-Lista-Decisiôn (ejemplos-ejemplosj) 


Figura 18.14 Un algoritmo de aprendizaje de listas de decision. 
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Figura 18.15 Curva de aprendizaje para el algoritmo Aprendizaje-Lista-Decisiôn sobre los datos 
del restaurante. La curva del algoritmo Aprendizaje-Arbol-Decisiôn se muestra para comparar. 


Este algoritmo no especifica el método para elegir el siguiente test que se anade a la 
lista de decision. Aunque los resultados formales proporcionados anteriormente no de- 
penden del método de selecciôn, séria razonable preferir test pequenos que encajen con- 
juntos grandes de ejemplos uniformemente clasificados, para que la lista de decision total 
sea lo mas compacta posible. La estrategia mas sencilla consiste en encontrar el test mas 
pequeno t que encaje uniformemente cualquier subconjunto clasificado, independiente- 
mente del tamano del subconjunto. Este enfoque funciona bastante bien, como muestra 
la Figura 18.15. 


Discusiôn 


IDENTIFICAR EN EL 
LIMITE 


La teoria computacional del aprendizaje ha generado una nueva forma para considerar 
el problema de aprendizaje. En los inicios de la década de los 60 la teoria del aprendi¬ 
zaje se centraba en el problema de identificar en el limite. De acuerdo con esta nociôn, 
un algoritmo de identificaciôn debe devolver una hipôtesis que encaje con exactitud con 
la funciôn real. Una forma de realizarlo se muestra a continuaciôn: primero, se ordenan 
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todas las hipôtesis en H de acuerdo a cierta medida de simplicidad. Luego, se elige la 
hipôtesis mas sencilla, consistente con todos los ejemplos hasta el momento. A medida 
que aparecen nuevos ejemplos, el método abandonarâ una hipotesis mas sencilla que se 
invalida y adoptarâ, en lugar de ella, una mas compleja. Una vez que se alcanza la fun- 
ciôn real, nunca se abandonarâ. Desgraciadamente, en muchos espacios de hipotesis, el 
nümero de ejemplos y el tiempo de computaciôn requerido para alcanzar la funcion real 
son énormes. Por ello, la teoria computacional del aprendizaje no insiste en que el agen¬ 
te de aprendizaje encuentre «una ley verdadera» que gobieme su entorno, sino en que 
encuentre una hipotesis con un cierto grado de précision en la predicciôn. La teoria com¬ 
putacional del aprendizaje también trata el compromiso entre la expresividad del len- 
guaje de la hipôtesis y la complejidad del aprendizaje y ha llevado directamente a una 
clase importante de algoritmos de aprendizaje denominados mâquinas vectoriales soporte 
(,support vector machines). 

Los resultados del PAC-aprendizaje que se han mostrado, son resultados para el peor 
caso en complejidad y no reflejan necesariamente el caso medio de la complejidad de 
la muestra, como las medidas mostradas anteriormente en las curvas de aprendizaje. El 
anâlisis de un caso medio debe también hacer suposiciones sobre la distribuciôn de los 
ejemplos y sobre la distribuciôn de la funcion real que el algoritmo tiene que aprender. 
Mientras estos aspectos se comprenden mejor, la teoria computacional del aprendizaje 
continüa proporcionando valiosos consejos a los investigadores del campo del aprendi¬ 
zaje automâtico que estân interesados en predecir y modificar la habilidad de aprendizaje 
de sus algoritmos. Ademâs de las listas de decision, se han obtenido resultados para casi 
todas las subclases de funciones booleanas conocidas, para redes neuronales (véase Ca- 
pitulo 20), y para conjuntos de sentencias de lôgica de primer orden (véase Capitulo 19). 
Los resultados muestran que el problema de aprendizaje inductivo puro, donde el agen¬ 
te comienza sin conocimiento a priori sobre la funcion objetivo, es generalmente muy 
dificil. Como veremos en el Capitulo 19, el uso de conocimiento a priori para guiar el 
aprendizaje inductivo hace posible el aprendizaje de conjuntos de sentencias bastante 
grandes a partir de un nümero razonable de ejemplos, incluso en un lenguaje tan expre- 
sivo como la lôgica de primer orden. 


18.6 Resumen 


En este capitulo nos hemos concentrado en el aprendizaje inductivo de funciones de- 
terministicas a partir de ejemplos. Los principales puntos fueron los siguientes: 

• El aprendizaje puede tomar muchas formas, dependiendo de la naturaleza de las 
herramientas de desarrollo, el componente a ser mejorado, y de la realimentaciôn 
disponible. 

• Si la realimentaciôn disponible, tanto de un profesor como del entorno, propor- 
ciona el valor correcto para los ejemplos, el problema de aprendizaje se denomi- 
na aprendizaje supervisado. La tarea, también llamada aprendizaje inductivo, 
consiste en aprender una funcion a partir de ejemplos de sus entradas y salidas. El 
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aprendizaje de una funcion de valores discrètes se denomina clasifîcaciôn; el 
aprendizaje de una funcion continua se denomina regresiôn. 

• El aprendizaje inductivo consiste en encontrar una hipotesis consistente que ve- 
rifique los ejemplos. La navaja de Ockham sugiere elegir la hipotesis consisten¬ 
te mas sencilla. La dificultad de esta tarea dépende de la representaciôn elegida. 

• Los ârboles de decision pueden representar todas las funciones booleanas. La 
heuristica de la ganancia de informaciôn proporciona un método eficiente para 
encontrar un ârbol de decision simple y consistente. 

• El rendimiento de un algoritmo de aprendizaje se mide a través de la curva de 
aprendizaje, que muestra la précision de predicciôn en el conjunto de ejemplos 
de test como una funcion del tamano del conjunto de ejemplos de entrenamiento. 

• Los métodos de conjuntos de hipotesis, como el boosting, a menudo se compor- 
tan mejor que los métodos individuales. 

• La teoria computacional del aprendizaje analiza la complejidad de la muestra 
y la complejidad computacional del aprendizaje inductivo. Existe un compromi- 
so entre la expresividad del lenguaje de la hipotesis y de la facilidad del aprendi¬ 
zaje. 



Notas bibliogrâficas e histôricas 

En el Capitulo 1 se dio una idea general acerca de la historia de las investigaciones fi- 
losôficas dentro del aprendizaje inductivo. A William de Ockham (1280-1349), el filo- 
sofo mas influyente de su siglo y un gran contribuidor a la epistemologia médiéval, la 
lôgica y la metafisica, se le atribuye la afirmaciôn denominada «La navaja de Ockham», 
en latin, Entia non sunt multiplicanda praeter necessitatem, y en castellano, «Las enti- 
dades no han de ser multiplicadas mas alla de la necesidad». Desgraciadamente, este lo- 
able consejo no se encuentra en ninguna parte de sus escrituras con estas palabras 
precisamente. 

EPAM («Elementary Perceiver And Memorizer»), el memorizador y perceptor ele- 
mental (Leigenbaum, 1961), fue uno de los primeros sistemas que utilizaron ârboles de 
decision (o redes de discriminaciôn). EPAM fue disenado como un modelo de simu- 
laciôn cognitiva de aprendizaje de conceptos humanos. CLS (Hunt et al., 1966) usaba 
un método heuristico para constmir ârboles de decision. ID3 (Quinlan, 1979) anadio la 
idea crucial de usar el contenido de la informaciôn para proporcionar la funcion heuris¬ 
tica. La teoria de la informaciôn, por su parte, fue desarrollada por Claude Shannon para 
ayudar en el estudio de la comunicaciôn (Shannon y Weaver, 1949). (Shannon también 
contribuyô con uno de los primeros ejemplos de aprendizaje automâtico, un raton me- 
cânico, llamado Theseus, que aprendia a navegar por tanteo a través de un laberinto.) El 
método de la \ 2 para poda de ârboles, fue descrito por Quinlan (1986). C4.5, un paque- 
te industrial de ârboles de decision, puede encontrarse en Quinlan (1993). En la litera- 
tura estadistica existe una tradiciôn independiente en el aprendizaje de ârboles de 
decision. La principal referencia es el libro Classification and Régression Trees (CART) 
(Arboles de Clasificaciôn y Regresiôn) (Breiman et al., 1984), conocido como el «libro 
CART». 
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Se han probado muchos otros enfoques algorftmicos para el aprendizaje. El enfo- 
que de la mejor hipôtesis actual mantiene una ünica hipotesis, especializândola cuan- 
do se comprueba que es demasiado general y generalizândola cuando se comprueba 
que es demasiado especifica. Esta es una vieja idea de la filosofïa (Mill, 1843). Los 
primeras trabajos en la filosofïa cognitiva también sugerian que es una forma natural 
de aprendizaje de conceptos en humanos (Bruner et al., 1957). En IA, el enfoque esta 
mas estrechamente ligado al trabajo de Patrick Winston, cuya tesis doctoral (Winston, 
1970) aborda el problema de aprendizaje de descripciones de objetos complejos. El mé- 
todo de espacio de versiones (version space ) (Mitchell, 1977, 1982) toma un enfoque 
distinto, mantiene el conjunto de todas las hipotesis consistentes y élimina aquellas que 
resultan inconsistentes con nuevos ejemplos. El enfoque fue usado en el sistema ex¬ 
perte para quimica Meta-ÜENDRAL (Buchanan y Mitchell, 1978), y mas tarde en el sis¬ 
tema Lex de Mitchell (1983), que aprendia a resolver problemas de câlculo. Un tercer 
hilo de influencia surgiô por el trabajo de Michalski y colegas en las sériés de algorit- 
mos AQ, que aprendian conjuntos de réglas lôgicas (Michalski, 1969; Michalski et al., 
1986b). 

El aprendizaje de conjuntos de hipotesis es una técnica cada vez mas popular para 
mejorar el funcionamiento de los algoritmos de aprendizaje. Bagging (Breiman, 1996), 
el primer método efectivo, combina hipotesis aprendidas a partir de mültiples conjun¬ 
tos de datos ( bootstrap ), cada uno generado muestreando el conjunto original de datos. 
El método boosting , descrito en este capitulo, se originô con los trabajos teôricos de Scha- 
pire (1990). El algoritmo Adaboost fue desarrollado por Freund y Schapire (1996) y 
fue analizado teôricamente por Schapire (1999). Friedman et al. (2000) explica el bo¬ 
osting desde un punto de vista estadistico. 

El anâlisis teôrico de los algoritmos de aprendizaje comenzô con el trabajo de Gold 
(1967) sobre identificaciôn en el limite. Este enfoque fue motivado en parte por los mo- 
delos de descubrimientos cientificos de la ciencia de la filosofïa (Popper, 1962), pero se 
ha aplicado principalmente al problema de aprendizaje de gramâticas a partir de ejem¬ 
plos de sentencias (Osherson et al., 1986). 

Mientras que el enfoque de la identificaciôn en el limite se concentra en la conver- 
gencia final, el estudio de la complejidad de Kolmogorov o la complejidad algorit- 
mica, desarrollados independientemente por Solomonoff (1964) y Kolmogorov (1965), 
intenta proporcionar una definiciôn formai para la nociôn de simplicidad que se utiliza 
en la navaja de Ockham. Para evitar el problema de que la simplicidad dependa de la 
forma en que esta representada la informaciôn, se propone que la simplicidad se mida 
a través de la longitud del programa mas corto de una mâquina de Turing universal que 
reproduzca correctamente los datos observados. Aunque existen muchas posibles mâ- 
quinas de Turing universales, y por lo tanto muchos programas posibles que sean «el mas 
corto», difieren en longitud como mucho en una constante que es independiente de la 
cantidad de datos. Esta curiosa apreciaciôn, que muestra esencialmente que cualquier 
sesgo en la representaciôn inicial sera fmalmente salvado por los propios datos, se vie- 
ne abajo por la indecibilidad de computar la longitud del programa mas corto. Se pue- 
den usar medidas aproximadas, como el tamano de la minima descripciôn o MDL 
(Rissanen, 1984), que han producido excelentes resultados en la prâctica. El texto de Li 
y Vitanyi es la mejor fuente para la complejidad de Kolmogorov. 





APRENDIZAJE DE OBSERVACIONES 769 


TEORIA DE LA 

CONVERGENCIA 

UNIFORME 

La teoria computacional del aprendizaje (es decir, la teoria del aprendizaje PAC) 
fue inaugurada por Leslie Valiant (1984). El trabajo de Valiant enfatiza la importan- 
cia de la complejidad computacional y de la muestra. Con Michael Kearns (1990), Va¬ 
liant mostro que a las clases con varios conceptos no se les puede aplicar el 
PAC-aprendizaje, aunque esté disponible suficiente informaciôn en los ejemplos. Se 
obtuvieron algunos resultados positivos para listas de decision (Rivest, 1987). 

En estadistica, se ha desarrollado un enfoque independiente sobre el anâlisis de la 
complejidad de la muestra, comenzando con el trabajo de la teoria de la convergen- 
cia uniforme (Vapnik y Chervonenkis, 1971). El llamado VC dimension proporcio- 

VC DIMENSION 

na una medida similar, pero mas general que la medida ln H , obtenida por el anâlisis 
del PAC. La VC dimension puede aplicarse a las clases de funciones continuas, a las 
cuales no se les puede aplicar el anâlisis del PAC. La teoria del PAC-aprendizaje y la 
teoria del VC fueron inicialmente relacionadas por los «cuatro Alemanes» (ninguno 
de los cuales realmente es alemân): Blumer, Ehrenfeucht, Haussier y Warmuth (1989). 
Desarrollos sucesivos en la teoria de VC llevaron a la invenciôn de las mâquinas vec- 
toriales de apoyo ( support vector machine o SVM) (Boser et al., 1992; Vapnik, 
1998), que se describen en el Capitulo 20. 

En Readings in Machine Learning (Shavlik y Dietterich, 1990) se ha recopilado 
un gran numéro de articulos sobre aprendizaje automâtico. Los dos volümenes Ma¬ 
chine Learning 1 (Michalski et al., 1983) y Machine Learning 2 (Michalski et al., 
1986a) también contienen bastantes articulos importantes, al igual que una enorme 
bibliografia. Weiss y Kulikowski (1991) proporcionan una amplia introduccion a los 
métodos de aprendizaje de funciones en las âreas de aprendizaje automâtico, esta¬ 
distica y redes neuronales. El proyecto Statlog (Michie et al., 1994) es sin duda la 
investigacion mâs exhaustiva en la comparacion del rendimiento de los algoritmos de 
aprendizaje. Una buena parte de la investigacion actual en el campo del aprendizaje 
automâtico, se publica anualmente en las actas de las conferencias: International Con¬ 
férence on Machine Learning y Neural Information Processing System, en Machine 
Learning, en la revista Journal of Machine Learning Research, y en las principales 
revistas de IA. En los talleres anuales de ACM sobre Computational Learning The- 
ory (COLT) también aparecen trabajos sobre la teoria computacional del aprendiza¬ 
je, que se describe en los textos de Kearns y Vazirani (1994) y Anthony y Bartlett 
(1999). 


EJERCICIOS 


18.1 Considéré el problema al que se enfrenta un nino pequeno cuando tiene que ha- 
blar y entender un lenguaje. Explique cômo este problema encaja dentro del modelo ge¬ 
neral de aprendizaje, identificando cada uno de los componentes apropiados del modelo. 

18.2 Repita el Ejercicio 18.1 para el caso de aprender a jugar al tenis (u otro déporté 
que le sea familiar). / ; Es aprendizaje supervisado o aprendizaje por refuerzo? 

18.3 Dibuje un ârbol de decision para el problema de decidir cuândo atravesar un cru- 
ce de carreteras, dado que la luz se acaba de poner verde. 





770 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


18.4 Nunca se comprueba el mismo atributo dos veces en un mismo camino de un âr- 
bol de decision. / ; Por qué? 

18.5 Suponga que generamos un conjunto de entrenamiento a partir de un ârbol de de¬ 
cision y luego aplicamos aprendizaje con ârboles de decision a dicho conjunto. Dc- 
volverâ el algoritmo de aprendizaje el ârbol correcto cuando el tamano del conjunto de 
entrenamiento tienda a infinito? / ; Por qué o por qué no? 

18.6 Un buen algoritmo de aprendizaje espantapâjaros es de la siguiente manera: 
créa una tabla separada con los ejemplos de entrenamiento. Identifica qué salida se pro¬ 
duce mas veces en los ejemplos de entrenamiento; y la denomina d. Luego, cuando se 
recibe una entrada que no esta en la tabla, se devuelve d. Para entradas que si estân en 
la tabla, se devuelve la salida que tienen asociada (o la salida mas frecuente, si existe 
mas de una). Implemente este algoritmo y détermine en qué medida funciona bien en el 
dominio del restaurante. Esto le deberia dar una idea de la linea base del dominio (se 
deberia obtener como minimo el rendimiento que con cualquier otro algoritmo). 

18.7 Suponga que esta ejecutando un nuevo algoritmo para un experimento de apren¬ 
dizaje. Tiene un conjunto de datos formado por 25 ejemplos, para cada uno de dos cla- 
ses. Décida usar validacion cmzada omitiendo uno ( leave-one-out-cross-validation ). Para 
empezar, ejecute su experimento con un clasificador mayoritario simple. (Un clasifica- 
dor mayoritario recibe un conjunto de datos de entrenamiento y luego devuelve siem- 
pre la clase a la cual pertenecen la mayoria del conjunto de entrenamiento, a pesar de la 
entrada). Se esperarâ que el clasificador mayoritario obtenga una puntuaciôn de un 50 
por ciento en validacion cruzada omitiendo uno, sin embargo para su sorpresa, obtiene 
puntuaciôn cero. / ; Pucdc explicar por qué? 

18.8 En la construcciôn recursiva de ârboles de decision, a veces ocurre que en un nodo 
hoja queda un conjunto formado por ejemplos positivos y negativos, incluso después de 
que todos los atributos hayan sido evaluados. Suponga que tenemos p ejemplos positi¬ 
vos y n ejemplos negativos. 

a ) Compruebe como la soluciôn que usa el algoritmo Aprendizaje-Arbol-Deci- 
SIÔn, que selecciona la clasificaciôn mayoritaria, minimiza el valor absoluto del 
error sobre el conjunto de ejemplos en el nodo hoja. 

probabilidad clase b) Compruebe que la probabilidad de clase p/(p+n ) minimiza la suma de los erro- 

res cuadrâticos. 

18.9 Suponga que un algoritmo de aprendizaje intenta encontrar una hipôtesis con- 
sistente cuando la clasificaciôn de los ejemplos es en realidad aleatoria. Existen n atri¬ 
butos booleanos, y los ejemplos estân escogidos uniformemente a partir de un conjunto 
de 2" ejemplos posibles. Calcule el nümero de ejemplos que se requieren con anteriori- 
dad para que la probabilidad de encontrar una contradicciôn en los datos alcance 0,5. 

18.10 Suponga que un atributo divide el conjunto de ejemplos E en subconjuntos E t , 
y que cada subconjunto tiene p t ejemplos positivos y n i ejemplos negativos. Comprue¬ 
be que el atributo tiene ganancia de informaciôn estrictamente positiva, excepto si el ra¬ 
tio pjipi + /?,) es el mismo para todo i. 
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18.11 Modifique el algoritmo Aprendizaje-Ârbol-Decisiôn para incluir la poda de 
X 2 . Quizâ quiera consultar Quinlan (1986) para ver detalles. 

18.12 El algoritmo Aprendizaje-Ârbol-Decisiôn descrito en este capftulo no trata el 
caso de que algunos ejemplos carezcan de valor para ciertos atributos. 

a) Primera, necesitamos encontrar una forma para poder clasificar dichos ejemplos, 
dado un ârbol de decision que incluya test en los atributos para los que no se 
tenga valor. Suponga que un ejemplo X no tiene el valor para el atributo A y que 
el ârbol de decision comprueba el valor de A en un nodo que X alcanza. Una for¬ 
ma de tratar este caso es simular que el ejemplo toma todos los valores posibles 
para el atributo, pero dando peso a cada valor de acuerdo con su frecuencia res¬ 
pecta a todos los ejemplos que alcanzan ese nodo en el ârbol de decision. El al¬ 
goritmo de clasificacion deberia seguir todas las ramas desde un nodo para el 
cual el valor es desconocido y deberia multiplicar los pesos sobre cada camino. 
Escriba un algoritmo de clasificacion modificado para ârboles de decision que 
tenga dicho comportamiento. 

b) Ahora modifique el câlculo de la ganancia de informacion para que dada cualquier 
colecciôn de ejemplos C en un cierto nodo del ârbol en el proceso de construcciôn, 
a los ejemplos con valores desconocidos para alguno de los atributos restantes se 
les dé valores de acuerdo con la frecuencia de dichos valores en el conjunto C. 

18.13 En este capitulo, mostramos que los atributos con distintos valores posibles pue- 
den provocar problemas con la medida de la ganancia. Dichos atributos tienden a divi- 
dir los ejemplos en numerosas clases pequenas o incluso clases con un solo elemento, 
por ello esto parece ser extremadamente relevante de acuerdo con la medida de la ga¬ 
nancia. El criterio del ratio de ganancia selecciona atributos de acuerdo con el ratio en¬ 
tre su ganancia y su contenido de informacion intrinseco, es decir, la cantidad de 
informacion que proporciona la respuesta a la pregunta «/,Cuâl es el valor de este atri¬ 
buto?». Por ello, el criterio del ratio de ganancia intenta medir en qué medida de eficiencia 
un atributo proporciona informacion sobre la clasificacion correcta del ejemplo. Escri¬ 
ba una expresiôn matemâtica para la informacion contenida en un atributo, e implemente 
el criterio del ratio de ganancia para el algoritmo Aprendizaje-Ârbol-Decisiôn. 

18.14 Considéré un algoritmo de aprendizaje de conjuntos de hipôtesis que use el voto 
de la mayoria entre M hipôtesis aprendidas. Suponga que cada hipôtesis tiene un error 
€ y que el error producido por cada hipôtesis es independiente de las otras. Calcule una 
formula para el error del algoritmo para conjuntos en términos de M y e, y evalüelo para 
los casos en que M = 5, 10, y 20 y e= 0,1, 0,2 y 0,4. Si la suposiciôn de independencia 
desaparece, /es posible que el error para conjuntos sea peor que e? 

18.15 Este eiercicio tiene que ver con la expresividad de las listas de decision (Apar- 
tado 18.5). 

a) Compruebe que las listas de decision pueden representar cualquier funciôn bo- 
oleana, si el tamano de los test no estâ limitado. 

b) Compruebe que si los test pueden contener como mucho k literales cada uno, 
las listas de decision pueden representar cualquier funciôn que pueda ser re- 
presentada con un ârbol de decision de profundidad k. 




Conocimiento 
en el aprendizaje 


En este capitule* se describe el problema del aprendizaje cuando ya se sabe algo. 


En todos los enfoques sobre aprendizaje descritos en los très capitulos anteriores la idea 
es construir una funcion que tenga el comportamiento observado en los datos, en la en- 
trada y la salida. En cada caso, los métodos de aprendizaje se pueden entender como la 
büsqueda de un espacio de hipotesis para encontrar una funcion adecuada, partiendo üni- 
camente de una asuncion muy bâsica con respecto a la funcion, como un «polinomio de 
segundo grado» o un «ârbol de decision» y restricciones de la forma «cuanto mas sen- 
cillo mejor». Hacer esto équivale a decir que para poder aprender algo nuevo se debe ol- 
vidar (casi) todo lo que sepa. En este capitulo, se estudian métodos de aprendizaje que 
pueden beneficiarse del conocimiento a priori sobre el mundo. En la mayoria de los ca- 
sos, el conocimiento a priori se représenta como teorias generales de lôgica de primer 
orden; asi, para empezar relacionaremos el trabajo de representacion del conocimiento 
con el aprendizaje. 


19.1 Una formulaciôn logica del aprendizaje 


En el Capitulo 18 se definia el aprendizaje inductivo puro como el proceso de encontrar 
una hipotesis que verificara los ejemplos observados. A partir de ahora, la definicion se 
especializa al caso en el que la hipotesis se représenta a través de un conjunto de sen- 
tencias logicas. Las descripciones de los ejemplos y las clasificaciones también serân sen- 
tencias logicas, y un nuevo ejemplo podrâ ser clasificado infiriendo una sentencia de 
clasificaciôn a partir de las hipotesis y de las descripciones de los ejemplos. Este enfo- 
que tiene en cuenta la construccion incrémental de la hipotesis, una sentencia cada vez. 
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También tiene en cuenta el conocimiento a priori', ya que las sentencias que ya se co- 
nocen pueden ayudar en la clasificaciôn de nuevos ejemplos. En un principio, se puede 
pensar que la formulaciôn logica del aprendizaje supone una gran cantidad de trabajo 
extra, pero ayuda a aclarar muchos de los aspectos del aprendizaje. Nos permite ir mas 
alla de los métodos de aprendizaje simples vistos en el Capitulo 18 poniendo toda la po- 
tencia de la inferencia logica al servicio del aprendizaje. 


Ejemplos e hipôtesis 


DEFIN ICION 
CANDI DATA 


EXTENSION 


Recordemos el problema de aprendizaje del restaurante del Capitulo 18 : aprender una 
régla para decidir si esperar por una mesa. Los ejemplos fueron descritos a través de atri- 
butos taies como Alternative ?, Bar, VierlSab, etc. En un marco logico, un ejemplo es un 
objeto que se describe a través de sentencias lôgicas; los atributos se convierten en pre- 
dicados unarios. Generalizaremos llamando al ejemplo i-ésimo X t . Por ejemplo, el pri¬ 
mer ejemplo de la Figura 18.3 se describe a través de la sentencia 


Alternativa(X t ) a ->Bar(X t ) a ~'Vier/Sab(X i ) a Hambriento{X x ) a ... 

Usaremos la notaciôn DfX-) para referirnos a la descripcion de X t , donde D i puede ser 
cualquier expresion logica con un ünico argumento. La clasificaciôn del objeto viene dada 
por la sentencia 

Esperar (X j) 


Usaremos la notaciôn genérica QiXj si el ejemplo es positivo, y ~'Q(X I ) si el ejemplo es 
negativo. El conjunto completo de entrenamiento es la conjunciôn de todas las senten¬ 
cias de descripcion y clasificaciôn. 

El propôsito del aprendizaje inductivo en el marco logico es encontrar una expre- 
siôn logica équivalente al predicado meta Q que se pueda usar para clasificar correcta- 
mente los ejemplos. Cada hipôtesis propone una expresion, que denominaremos una 
defîniciôn candidata del predicado meta. Usando C t para representar la definiciôn can- 
didata, cada hipôtesis //, es una sentencia de la forma Vx Q(x) <=> C ; (x). Por ejemplo, un 
ârbol de decision afirma que un predicado meta es verdadero para un objeto si y solo si 
se alcanza una de las ramas que llevan a verdadero. Asi, la Figura 18.6 expresa la siguiente 
definiciôn logica (a la cual denominaremos H r para futuras referencias): 


V/* Esperar(r) <=> 
v 
v 

v 


Clientes(r, Algunos) 

Clientes(r, Lleno) a Hambriento(r) a Tipo(r, Fiancés) 
Clientes{r, Lleno) a Hambriento{r) a Tipo{r,Tciilandés) 
a Vier/Sab(r) 

Clientes{r, Lleno) a Hambriento(r) a Tipo(r, Hamburgue.) 


(19.1) 


Cada hipôtesis predice que un cierto conjunto de ejemplos (por ejemplo, aquellos que 
satisfagan su definiciôn candidata) serân ejemplos del predicado meta. Este conjunto se 
denomina extension del predicado. Dos hipôtesis con distintas extensiones son, por lo 
tanto, lôgicamente inconsistentes entre si, ya que se contradicen en sus predicciones para 
al menos un ejemplo. Si tienen la misma extension, son lôgicamente équivalentes. 

El espacio de hipôtesis H es el conjunto de todas las hipôtesis \H V ..., H n ( que el al- 
goritmo de aprendizaje esta disenado para considerar. Por ejemplo, el algoritmo Apren- 
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FALSO NEGATIVO 


FALSO POSITIVO 


dizaje-Ârbol-Decisiôn puede considérer cualquier hipotesis del ârbol de decision de- 
finida en términos de los atributos que se proporcionan; por ello, su espacio de hipôte- 
sis esta formado por todos estos ârboles de decision. Se supone que el algoritmo de 
aprendizaje considéra que una de las hipotesis es correcta; es decir, considéra la siguiente 
sentencia 

H x v77 2 v77 3 v... vH n (19.2) 

Segün van llegando los ejemplos, las hipotesis que no son consistentes con los mismos 
pueden ser excluidas. Examinemos esta nociôn de consistencia mas cuidadosamente. Ob- 
viamente, si la hipotesis 77, es consistente con todo el conjunto de entrenamiento, tiene 
que ser consistente con cada ejemplo. / ; Qué significaria ser inconsistente con un ejem- 
plo? Esto puede ocurrir de una de las dos siguientes formas: 

• Un ejemplo puede ser un falso negativo para la hipotesis, si la hipotesis afirma 
que debe ser negativo pero en realidad es positivo. Por ejemplo, el nuevo ejemplo 
X 13 descrito por: 

Clientes(X l3 , Lleno ) a TiempoEsperaEstimado (Yj 3 , 0-10) a 
a - <Hambriento(X l3 ) a ... a Esperar(X l3 ) 

séria un falso negativo para la hipotesis H r dada anteriormente. A partir de H r y la 
descripciôn del ejemplo, podemos deducir tanto Esperar(X n ), que es lo que el ejem¬ 
plo afirma, como -i Esperar(X 13 ), que es lo que la hipotesis predice. Por ello, la hi¬ 
potesis y el ejemplo son logicamente inconsistentes. 

• Un ejemplo puede ser un falso positivo para la hipotesis, si la hipotesis afirma que 
debe ser positivo pero en realidad es negativo 1 . 

Si un ejemplo es un falso positivo o un falso negativo para una hipotesis, el ejemplo y la 
hipotesis son logicamente inconsistentes entre si. Si asumimos que el ejemplo es una ob- 
servaciôn correcta del hecho, la hipotesis puede ser excluida. Desde un punto de vista 16- 
gico, esto es exactamente anâlogo a la régla de inferencia de resolucion ( véase el Capitulo 
9), donde la disyunciôn de hipotesis corresponde a una clâusula y el ejemplo correspon¬ 
de a un literal que resuelve con uno de los literales de la clâusula. Por ello, un sistema 
normal de inferencia lôgica podria, en principio, aprender a partir del ejemplo eliminan- 
do una o mas hipotesis. Suponga, por ejemplo, que la sentencia /, représenta el ejemplo, 
y el espacio de hipotesis es H x v H 2 v 77, v 77 4 . Enfonces, si 7, es inconsistente con H 2 y 
77 3 , el sistema de inferencia lôgica puede deducir el nuevo espacio de hipotesis 77, v H 4 . 

Por lo tanto, podemos caracterizar el aprendizaje inductivo en un marco lôgico como 
un proceso de eliminaciôn graduai de las hipotesis que son inconsistentes con los ejem¬ 
plos, reduciendo asi las posibilidades. Ya que el espacio de hipotesis normalmente es énor¬ 
me (o incluso infinito en el caso de la lôgica de primer orden), no recomendamos construir 
un sistema de aprendizaje que demuestre teoremas usando resolucion y haga una enu- 
meraciôn compléta del espacio de hipotesis. En vez de ello, describiremos dos enfoques 
que encuentran hipotesis logicamente consistentes con mucho menos esfuerzo. 

1 Los términos «falso positivo» y «falso negativo» se usan en medicina para describir resultados errôneos a 
partir de test de laboratorio. Un resultado es un falso positivo si indica que el paciente tiene una enfermedad 
cuando en realidad la enfermedad no esta présente. 
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MEJOR-HIPÔTESIS- 

ACTUAL 


GENERAUZACIÔN 


ESPECIALIZACIÔN 


Büsqueda mejor-hipôtesis-actual 

La idea de la büsqueda mejor-hipôtesis-actual es mantener una ünica hipotesis, y ajus- 
tarla cuando llegan nuevos ejemplos para que se mantenga la consistencia. El algoritmo 
bâsico fue descrito por John Stuart Mill (1843), pero podrfa haber aparecido incluso 
antes. 

Suponga que tenemos una hipotesis tal como H r , con la que nos hemos encarinado 
bastante. Mientras que cada nuevo ejemplo sea consistente, no tenemos que hacer nada. 
Cuando llega un ejemplo falso negativo, X vy / ; Qué debemos hacer? La Figura 19.1 (a) 
muestra H r esquemâticamente como una région: todo lo de dentro del rectângulo es par¬ 
te de la extension de H r . Los ejemplos que han sido observados hasta ahora se muestran 
como «+» o «—», y observamos que H r clasifica de forma correcta todos los ejemplos 
de Esperar, como ejemplos positivos o negativos. En la Figura 19.1 (b), un nuevo ejem¬ 
plo (con un clrculo) es un falso negativo: la hipotesis dice que deberfa ser negativo, pero 
en realidad es positivo. La extension de la hipotesis debe aumentarse para incluirlo. Esto 
se denomina generalizaciôn: una posible generalizaciôn se muestra en la Figura 19.1 (c). 
En la Figura 19.1 (d), se observa un falso positivo: la hipotesis afirma que el nuevo ejem¬ 
plo (con un clrculo) deberla ser positivo, pero en realidad es negativo. La extension de 
la hipotesis debe ser reducida para excluir al ejemplo. Esto se denomina especializaciôn; 
en la Figura 19.1 (e) se observa una posible especializaciôn de la hipotesis. 

Las relaciones «mas general que» y «mas especifica que» entre hipotesis proporcionan 
la estructura lôgica en el espacio de hipotesis que hace posible la büsqueda eficiente. 

Ahora podemos especificar el algoritmo Aprendizaje-Mejor-Actual, mostrado en 
la Figura 19.2. Nôtese que cada vez que se considéra una generalizaciôn o una especia¬ 
lizaciôn de la hipotesis, se debe comprobar la consistencia con el resto de ejemplos, ya 
que aumentos/reducciones de forma arbitraria en la extension podrian incluir/excluir 
ejemplos negativos/positivos observados anteriormente. 

Se han definido la generalizaciôn y la especializaciôn como operaciones que modi- 
fican la extension de una hipotesis. Ahora necesitamos determinar exactamente como se 
pueden implementar como operaciones sintâcticas que modifiquen la definiciôn candi- 
data asociada con la hipotesis. Esto se realiza observando que la generalizaciôn y la es- 



Figura 19.1 (a) Una hipotesis consistente. (b) Un falso negativo. (c) La hipotesis se generaliza. 

(d) Un falso positivo. (e) La hipotesis se especializa. 
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OMISION DE 
CONDICIONES 


funciôn APRENDiZAJE-MEJOR-AcTUAL(ejemplos) devuelve una hipotesis 

H * *— cualquier h i potes i s consistente con el primer ejemplo de ejemplos 
para cada ejemplo restante de ejemplos hacer 
si e es un falso positivo para H entonces 

H <— elegir una especializaciôn de H consistente con los ejemplos 
si no si e es un falso negativo para H entonces 

H <— elegir una generalizacion de H consistente con los ejemplos 
si no puede encontrarse ninguna especializaciôn/generalizacion consistente entonces fallo 
devolver H 


Figura 19.2 El algoritmo de aprendizaje de la mejor hipôtesis actual. Busca una h i potes i s consis¬ 
tente y rétrocédé cuando no puede encontrarse ninguna especializaciôn/generalizacion consistente. 


pecializaciôn también sort relaciones lôgicas entre hipôtesis. Si la hipôtesis H v con la 
definiciôn Cj, es una generalizacion de la hipôtesis H, con la definiciôn C 2 , entonces de- 
bemos tener 

Vx C 2 (x) => C,(x) 

Por lo tanto, para construir una generalizacion de H 2 , simplemente necesitamos encon- 
trar la definiciôn C l que sea una implicaciôn lôgica de C 2 . Esto se puede hacer fâcilmente. 
Por ejemplo, si C 2 (x) es Alternativa(x) a Clientes(x, Algunos), una posible generaliza- 
ciôn viene dada por C,(x) = Cliente s(x. Algunos). Esto se denomina omisiôn de condi- 
ciones ( dropping conditions). De forma intuitiva, généra una definiciôn mas débil y por 
ello permite un conjunto mas grande de ejemplos positivos. Existen mas operaciones de 
generalizacion, dependiendo del lenguaje en el que se opéré. De la misma forma, po- 
demos especializar una hipôtesis anadiendo condiciones extra a su definiciôn candida- 
ta o eliminando disyunciones de una definiciôn disyuntiva. Veamos cômo funciona para 
el ejemplo del restaurante, usando los datos de la Figura 18.3. 

• El primer ejemplo X x es positivo. Alternativa(X x ) es verdadero, asi que la hipôte¬ 
sis inicial sera 

H{. \/x EsperarÇx) <=> Alternativa(x) 

• El segundo ejemplo X 2 es negativo. H x lo predice como positivo, asi que es un fal¬ 
so positivo. Por ello, tenemos que especializar H v Se puede hacer anadiendo una 
condiciôn extra que rechace X 2 . Una posibilidad es 

H 2 : Vx Esperar(x) <=> Alternatifa(x) a Clientes(x, Algunos) 

• El tercer ejemplo X 3 es positivo. H 2 lo predice como negativo, luego es un falso 
negativo. Por ello, necesitamos generalizar H^. Eliminamos la condiciôn Alterna- 
tiva, resultando 

H 3 : Vx Esperar(x) <^> Clientesix, Algunos) 

• El cuarto ejemplo X 4 es positivo. H 3 lo predice como negativo, luego es un falso 
negativo. Por ello, necesitamos generalizar H 3 . No podemos eliminar la condiciôn 





778 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


de Clientes, ya que obtendrfamos una hipotesis que incluye a todos los ejemplos, 
que séria inconsistente con X 2 . Una posibilidad es anadir una disyuncion: 

H 4 : Vx Esperar(x ) <=> Clientes(x, Algunos ) v (CUentes(x, Lleno) a Vier/Sab(x)) 

La hipotesis ya esta comenzando a parecer razonable. Obviamente, existen otras posi- 
bilidades consistentes con los cuatro primeros ejemplos; aqui estân otras dos: 

H'{. Vx Esperar(x ) « -■ TiempoEsperaEstimado(x, 30-60) 

H" 4 . Vx Esperar(x) <=> Clientes(x, Algunos) v 
v ( Clientes(x , Lleno ) a TiempoEsperaEstimadoix, 10-30)) 

El algoritmo Aprendizaje-Mejor-Actual se describe de forma no determirustica, ya que 
en cualquier punto, se pueden aplicar varias especializaciones o generalizaciones posi- 
bles. Las elecciones realizadas no nos llevarân necesariamente a la hipotesis mas senci- 
11a, y pueden llevarnos a una situaciôn irrécupérable donde ninguna modificacion sencilla 
de la hipotesis sea consistente con todos los datos. En estos casos, el programa debe vol- 
ver hacia atrâs ( backtracking ) al punto de eleccion anterior. 

El algoritmo Aprendizaje-Mejor-Actual y sus variantes se han usado en muchos 
sistemas de aprendizaje automâtico, comenzando con el programa «arch-learning» de 
Patrick Winston (1970). Pueden aparecer algunas dificultades, con un gran numéro de 
instancias y un espacio grande: 

1. La comprobacion de todas las instancias anteriores cada vez que se realiza una 
modificacion es muy cara computacionalmente. 

2. El proceso de büsqueda puede conllevar un gran numéro de backtrackings. 
Como observamos en el Capitulo 18, el espacio de hipotesis puede ser doble- 
mente exponencial. 


Büsqueda de mmimo compromiso 


El backtracking aparece porque el enfoque de mejor-hipôtesis-actual tiene que elegir una 
hipotesis particular como su mejor suposicion, aunque no tiene los suficientes datos para 
hacer la eleccion con seguridad. En vez de esto podemos mantener solo aquellas hipo¬ 
tesis que son consistentes con todos los datos hasta el momento. Cada nueva instancia, 
o no tendra ningün efecto o eliminarâ algunas de las hipotesis. Recuerde que el espacio 
de hipotesis original se puede ver como una disyuncion de sentencias 


H l vH 2 vH,v...vH n 


ESPACIO DE 
VERSIONES 


ELIMINACIÔN DE 
CANDIDATOS 


La disyuncion se reduce cuando se encuentran varias hipotesis que son inconsistentes 
con los datos, manteniendo solo aquellas que no se desechan. Asumiendo que el espa¬ 
cio de hipotesis original contiene la respuesta correcta, la disyuncion reducida seguirâ 
conteniendo todavia la respuesta correcta, ya que solo se han eliminado hipotesis in¬ 
consistentes. El conjunto de hipotesis restantes se denomina espacio de versiones, y el 
algoritmo de aprendizaje (mostrado esquemâticamente en la Figura 19.3) se denomina 
algoritmo de aprendizaje del espacio de versiones (también se conoce como el algorit¬ 
mo de eliminaciôn del candidatos). 
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funciôn ApRENDiZAjE-EsPACio-VERSiQNEs(É7emp/o,s) devuelve espacio de versiones 
variables locales: V, el espacio de versiones: el conjunto de todas las hipotesis 

V * *— el conjunto de todas las hipotesis 
para cada ejemplo e de ejemplos hacer 

si V no esta varia entonces V <— Actualizar-Espacio-Versiones(E, e) 

devolver V 


funciôn Actualizar-Espacio-Versiones(V, e) devuelve espacio de versiones actualizado 
V *— {h <= V: h es consistente con e j 


Figura 19.3 El algoritmo del espacio de versiones. Encuentra un subconjunto de V que es con¬ 
sistente con todos los ejemplos. 


CONJUNTO FRONTERA 

CONJUNTO G 

CONJUNTO S 


Una importante propiedad de este enfoque es que es incrémental: nunca se tiene que 
volver hacia atrâs para examinar de nuevo los antiguos ejemplos. Esta garantizada la con- 
sistencia de todas las hipotesis restantes. También es un algoritmo de nunimo-com- 
promiso, ya que no realiza elecciones arbitrarias (comparado con el algoritmo de 
planificacion de orden-parcial del Capitulo 11). Pero existe un problema obvio. Ya di- 
jimos que el espacio de hipotesis es enorme, asi que / cotno podemos escribir esta énor¬ 
me disyuncion? 

La siguiente analogia es muy ütil. / Como se representan todos los nümeros reales 
entre 1 y 2? Después de todo, [existe un nümero infinito! La solucion es usar una re- 
presentacion de intervalos que simplemente especifique las fronteras del conjunto: [1,2]. 
Esto funciona porque existe un orden en el conjunto de los nümeros reales. 

También tenemos un orden en el espacio de hipotesis, concretamente, el que viene 
dado por la generalizacion y la especializaciôn. Este es un orden parcial, lo que signifi- 
ca que cada frontera no sera un punto, sino un conjunto de hipotesis que denominare- 
mos conjunto frontera. El aspecto importante es que podemos representar el espacio 
de versiones total usando solo dos conjuntos frontera: una frontera mas general (el con¬ 
junto G) y una frontera mas especifica (el conjunto S). Esté garantizado que todo lo 
que se encuentre entre estos dos conjuntos serâ consistente con los ejemplos. Antes de 
probar esto, recapitulemos: 


• El espacio de versiones actual es el conjunto de las hipotesis consistentes con to¬ 
dos los ejemplos hasta el momento. Se représenta mediante los conjuntos S y G, 
cada uno de los cuales es un conjunto de hipotesis. 

• Cada miembro del conjunto S es consistente con todas las observaciones hasta el 
momento, y no existe ninguna hipotesis consistente que sea mas especifica. 

• Cada miembro del conjunto G es consistente con todas las observaciones hasta el 
momento, y no existe ninguna hipotesis consistente que sea mas general. 


Queremos que el espacio de versiones inicial (antes de que ningün ejemplo haya sido 
observado) représente todas las hipotesis posibles. Conseguimos esto haciendo que el 
conjunto G contenga Verdadero (la hipotesis que contiene todo), y el conjunto S con- 
tenga Falso (la hipotesis cuya extension es vacia). 
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La Figura 19.4 muestra la estructura general de la representaciôn del conjunto fron- 
tera del espacio de versiones. Para mostrar que la representaciôn es suficiente, necesi- 
tamos las dos propiedades siguientes: 

1. Cada hipôtesis consistente (que no esté en los conjuntos frontera) es mas espe- 
cifica que algunos de los miembros del conjunto G, y mas general que algunos 
de los miembros del conjunto S. (Es decir, no existen hipôtesis «rezagadas» fue- 
ra.) Esto viene de la definiciôn de S y G. Si existiera una hipôtesis h rezagada, 
tendria que ser mas especifica que cualquiera de los miembros de G, en cuyo 
caso perteneceria a G; o mas general que cualquiera de los miembros de S, en 
cuyo caso perteneceria a S. 

2. Cualquier hipôtesis mas especifica que algün miembro del conjunto G y mas ge¬ 
neral que algün miembro del conjunto S es una hipôtesis consistente. (Es decir, 
no existen «agujeros» entre las fronteras.) Cualquier h entre S y G debe recha- 
zar todos los ejemplos negativos rechazados por cada miembro de G (ya que es 
mas especifica), y debe aceptar todos los ejemplos positivos aceptados por cual¬ 
quier miembro de S (ya que es mas general). Por ello, h debe verificar todos los 
ejemplos, y no puede ser inconsistente. La Figura 19.5 muestra la situaciôn en 
la que no hay ejemplos conocidos fuera de S, pero si dentro de G, asi que cual¬ 
quier hipôtesis en el hueco debe ser consistente. 

Hemos mostrado que si S y G se mantienen de acuerdo con sus definiciones, proporcionan 
una representaciôn satisfactoria del espacio de versiones. El ünico problema restante es 
cômo actualizar S y G con un nuevo ejemplo (la labor de la funciôn Actualizar-Espa- 




















CONOCIMIENTO EN EL APRENDIZAJE 781 


- G, 


G 2 _ 


Figura 19.5 Las extensiones de los miembros de G y S. Ningün ejemplo conocido cae entre los 
dos conjuntos de fronteras. 



CIO-Versiones). Esto puede que parezca algo complicado al principio, pero a partir de 
las definiciones y con la ayuda de la Figura 19.4, no es demasiado dificil reconstruir el 
algoritmo. 

Necesitamos analizar los miembros S. y G, de los conjuntos S y G. Para cada uno, la 
nueva instancia puede ser un falso positivo o un falso negativo. 

1. Falso positivo para Sf. esto significa que S i es demasiado general, pero no exis- 
ten especializaciones consistentes de ,Sj (por definiciôn), asi que la sacamos 
fuera del conjunto S. 

2. Falso negativo para S ', esto significa que Sj es demasiado especifica, asi que la 
reemplazamos por todas sus generalizaciones inmediatas, siempre que sean 
mas especificas que algunos miembros de G. 

3. Falso positivo para G;, esto significa que G, es demasiado general, asi que la re¬ 
emplazamos por todas sus especializaciones inmediatas, siempre que sean mas 
generales que algunos miembros de S. 

4. Falso negativo para G,: esto significa que G, es demasiado especifica, pero no 
existen generalizaciones consistentes de G, (por definiciôn), asi que la sacamos 
fuera del conjunto G. 

Continuamos estas operaciones para cada nueva instancia hasta que ocurra: 

1. Que tengamos exactamente un concepto en el espacio de versiones, en cuyo caso 
lo devolvemos como la ünica hipôtesis. 

2. Que el espacio de versiones se colapse (ni S ni G se vacian, lo que indica que 
no existen hipôtesis consistentes con el conjunto de entrenamiento). Este es el 
mismo fallo que aparecia en la version sencilla del algoritmo de los ârboles de 
decision. 

3. Que nos quedemos sin ejemplos, con varias hipôtesis restantes en el espacio de 
versiones. Esto significa que el espacio de versiones représenta una disyunciôn 
de hipôtesis. Para cada nuevo ejemplo, si todas las disyunciones estân de acuer- 














782 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


do, podemos devolver su clasificacion. Si estân en desacuerdo, una posibilidad 
es tomar el voto de la mayoria. 

Dejamos como ejercicio la aplicaciôn del algoritmo de Aprendizaje-Espacio-Versio- 
nes a los datos del restaurante. 

Existen dos desventajas principales del enfoque del espacio de versiones: 

• Si el dominio contiene ruido o atributos insuficientes para la clasificacion exacta, 
el espacio de versiones siempre se colapsarâ. 

• Si permitimos disyunciones ilimitadas en el espacio de hipôtesis, el conjunto S 
siempre contendrâ una ünica hipôtesis mas especifica, a saber, la disyunciôn de 
las descripciones de los ejemplos positivos hasta el momento. Del mismo modo, 
el conjunto G contendrâ solo la negaciôn de la disyunciôn de las descripciones de 
los ejemplos negativos. 

• Para algunos espacios de hipôtesis, el nümero de elementos en el conjunto G y S 
pueden crecer exponencialmente con respecto al nümero de atributos, incluso 
aunque existan algoritmos eficientes de aprendizaje para dichos espacios de hi¬ 
pôtesis. 


JERARQIRA DE 
GENERALIZACIÔN 


Hasta la fecha, no se ha encontrado ninguna soluciôn compléta y satisfactoria para el pro- 
blema del ruido. El problema de las disyunciones puede ser abordado permitiendo for¬ 
mas limitadas de disyunciones o incluyendo una jerarquia de generalizaciôn de 
predicados mas generales. Por ejemplo, en vez de usar la disyunciôn TiempoEsperaEs- 
timado(x, 30-60) v TiempoEsperaEstimado(x, >60), deberfamos usar el ünico 1 itérai Lar- 
gaEspera(x). El conjunto de operaciones de generalizaciôn y especializaciôn puede ser 
fâcilmente ampliado para dar soporte a esto. 

El algoritmo de espacio de versiones puro fue aplicado inicialmente en el sistema 
Meta-DENDRAL, que fue disenado para aprender réglas para predecir como las molécu- 
las se rompian en trozos en un espectômetro de masas (Buchanan y Mitchell, 1978). Meta- 
DENDRAL fue capaz de generar réglas que fueron lo suficientemente novedosas como para 
garantizar publicaciones en una revista de quimica analitica (el primer conocimiento re- 
almente cientifico generado por un programa informâtico). También se aplicô en el ele- 
gante sistema Lex (Mitchell et al., 1983), que era capaz de aprender a resolver problemas 
de integraciôn simbôlica estudiando sus propios éxitos y fracasos. Aunque, probable- 
mente, los métodos del espacio de versiones no son prâcticos en la mayoria de proble¬ 
mas de aprendizaje, en gran medida por el ruido, proporcionan un buen tratamiento de 
los espacios de hipôtesis con estructura lôgica. 


19.2 Conocimiento en el aprendizaje 


La secciôn anterior describia el marco mas simple para la lôgica inductiva. Para 
entender el papel del conocimiento a priori, necesitamos hablar de las relaciones 16- 
gicas entre hipôtesis, descripciones de ejemplos y clasificaciones. Mediante Descrip¬ 
ciones denotaremos la conjunciôn de todas las descripciones de los ejemplos del 
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conjunto de entrenamiento, y mediante Clasificaciones la conjunciôn de todas las cla- 
sificaciones de los ejemplos. De este modo, las Hipôtesis que «explican las observa- 
ciones» deben satisfacer la siguiente propiedad (recuerde que |= significa «es 
consecuencia logica»): 


RESTRICCIÔN 



Hipôtesis a Descripciones |= Clasificaciones (19.3) 

A este tipo de relaciôn lo denominaremos restricciôn, donde Hipôtesis es lo «desco- 
nocido». El objetivo del aprendizaje inductivo puro es resolver esta restricciôn, don¬ 
de Hipôtesis se obtiene a partir de algün espacio de hipôtesis predefinido. Por ejemplo, 
si consideramos un ârbol de decision como una formula logica ( véase Ecuaciôn (19.1) 
en la pagina 774), un ârbol de decision consistente con todos los ejemplos satisfarâ la 
Ecuaciôn (19.3). Por supuesto, si no se ponen restricciones sobre la forma logica que 
adopta la hipôtesis, Hipôtesis = Clasificaciones también satisface la restricciôn. La na- 
vaja de Ockham indica que de las hipôtesis consistentes son preferibles las mas pe- 
quenas, por lo tanto intentaremos hacer algo mejor que simplemente memorizar 
ejemplos. 

Este esquema simple del aprendizaje inductivo persiste desde los inicios de 1980. 
El enfoque moderno consiste en disenar agentes que ya saben algo e intentan apren- 
der mas. Esto no supone una gran perspicacia, pero hace bastante diferente la forma 
de disenar agentes. También puede tener alguna relevancia en nuestras teorias sobre 
cômo funciona la ciencia. La idea general se muestra esquemâticamente en la Figu¬ 
ra 19.6. 

Si queremos construir un agente de aprendizaje autônomo que utilice conocimien- 
to bâsico, en primer lugar el agente debe contar con algün método para obtener el co- 
nocimiento bâsico, para que este conocimiento se pueda utilizar en los nuevos episodios 
de aprendizaje. Este método también debe ser en si mismo un proceso de aprendizaje. 
Por lo tanto, la historia de la vida del agente estarâ caracterizada por un desarrollo acu- 
mulativo o incrémental. Presumiblemente, el agente podrfa empezar sin nada, realizan- 
do inducciones in vacuo, como un pequeno programa de inducciôn pura. Pero una vez 
haya comido del Ârbol del Conocimiento no podrâ continuar con simples especulacio- 
nes y deberâ utilizar su conocimiento bâsico para aprender mâs y de una forma mâs efec- 
tiva. La pregunta es cuândo hacer esto realmente. 


Observaciones 



Predicciones 


Figura 19.6 Un proceso de aprendizaje acumulativo utiliza y amplia un almacén de conocimiento 
bâsico a medida que pasa el tiempo. 
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Algunos ejemplos sencillos 



Consideremos algunos ejemplos de aprendizaje con conocimiento bâsico de sentido co- 
mün. Muchas inferencias, aparentemente racionales, que se realizan a la vista de obser- 
vaciones, claramente no siguen los principios de la induccion pura: 

• Algunas veces se sacan conclusiones generales después de una ünica observaciôn. 
Gary Larson una vez pintô un dibujo animado en el que un hombre primitivo con 
gafas, Zog, esta asando un lagarto en una vara. Es observado por una multitud asom- 
brada de sus contemporâneos menos intelectuales, quienes han venido utilizando 
sus manos desnudas para mantener sus provisiones sobre el fuego. Esta instructi- 
va experiencia es suficiente para convencer a los observadores de un principio ge¬ 
neral para cocinar sin dolor. 

• Considéré el caso de un turista que va a Brasil y conoce a su primera persona bra- 
silena. Al escucharle hablar en portugués, inmediatamente conduira que los 
brasilenos hablan en portugués, aunque al descubrir que su nombre es Fernando 
no conduira que todos los brasilenos se llaman Fernando. En la ciencia existen 
casos similares. Por ejemplo, cuando un estudiante de primer ano de Fisica mide 
la densidad y la conductancia de una muestra de cobre a una temperatura deter- 
minada, esta bastante seguro cuando generaliza estos valores a todas las piezas de 
cobre. Aunque cuando mida la masa, no considerarâ la hipotesis de que todas las 
piezas de cobre tienen esa masa. Por otro lado, séria bastante razonable hacer este 
tipo de generalizaciôn sobre todos los peniques. 

• Finalmente, considéré el caso de un estudiante de Medicina que sabe realizar 
diagnôsticos sofisticados, pero es ignorante respecto a farmacologia, que esta ob- 
servando la consulta entre un paciente y un experto. Después de una sérié de pre- 
guntas y respuestas, el experto dice al paciente que tome un determinado antibiotico. 
El estudiante de medicina inferirâ la régla general sobre qué antibiotico particu- 
lar es efectivo para un tipo de infecciôn determinado. 

En todos estos casos el uso de conocimiento bâsico permite un aprendizaje mucho mâs 
râpido que el que se podria esperar de un programa de induccion puro. 


Algunos esquemas generales 


APRENDIZAJE BASADO 
EN EXPLICACIONES 


En cada uno de los ejemplos anteriores, se puede apelar al conocimiento a priori para 
intentar justificar las generalizaciones realizadas. Veremos qué tipos de restricciones se 
generan en cada caso. Las restricciones incluirân el ConocimientoDeBase, ademâs de 
las Hipotesis, las Descripciones observadas y las Clasificaciones. 

En el caso del lagarto asado, el hombre primitivo generaliza explicando el éxito de 
la vara: ésta soporta al lagarto, manteniendo asi la mano lejos del fuego. A partir de esta 
explicaciôn, infiere una régla general: que cualquier objeto largo, rigido y puntiagudo 
sirve para asar alimentos pequenos y ligeros. Este tipo de proceso de generalizaciôn ha 
sido denominado aprendizaje basado en explicaciones, o EBL (Explanation Based Le¬ 
ar ning). Observe que la régla general se deduce lôgicamente del conocimiento bâsico 
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RELEVANCIA 


APRENDIZAJE BASADO 
EN RELEVANCIA 


que posee el hombre primitive». Por lo tanto las restricciones que se satisfacen por el EBL 
son las siguientes: 

Hipôtesis a Descripciones (= Clasificaciones 
ConocimientoBâsico |= Hipôtesis 

El hecho de que EBL utilice la Ecuaciôn (19.3), en un principio hizo suponer que era 
una forma mejor de aprender a partir de ejemplos. Pero como necesita que exista sufi- 
ciente conocimiento bâsico como para explicar la Hipôtesis, que en realidad explica las 
observaciones, realmente el agente no aprende nada nuevo del ejemplo. El agente po- 
dria haber derivado el ejemplo de lo que ya sabla, aunque esto requiriera una cantidad 
muy elevada de computaciôn. EBL no se considéra como un método para convertir los 
primeros principios de las teorlas en conocimiento ütil de propôsito especlfico. Descri- 
biremos los algoritmos para EBL en el Apartado 19.3. 

La situaciôn del turista en Brasil es bastante diferente, puede que éste no se explique 
por qué Fernando habla de esa forma, a menos que conozca sus bulas Papales. Ademâs, 
se puede esperar la misma generalizacion de un turista completamente ignorante en lo re- 
lativo a historia colonial. En este caso, el conocimiento a priori relevante es que, en cual- 
quier pals, la mayoria de la gente habla el mismo idioma; por otro lado, no se asume que 
Fernando sea el nombre de todos los brasilenos, porque este tipo de regularidad no se ve- 
rifica para los nombres. De forma similar, el estudiante de primer ano de Flsica también 
deberia tener problemas para explicar sus descubrimientos acerca de los valores particu- 
lares para la conductancia y la densidad del cobre. Sin embargo, sabe que el material del 
que un objeto esta compuesto, junto con su temperatura, determinan su conductancia. En 
cada caso, el ConocimientoBâsico a priori se refiere a la relevancia que tiene un con- 
junto de caracteristicas sobre el predicado meta. Este conocimiento, junto con las obser¬ 
vaciones, permite al agente inferir una nueva régla general que explica las observaciones: 

Hipôtesis a Descripciones \= Clasificaciones 

Hipôtesis a Descripciones a Clasificaciones |= Hipôtesis (19.4) 

Denominaremos a este tipo de generalizacion aprendizaje basado en relevancia o 
RBL ( Relevance-Based Learning ) (aunque este nombre no es estândar). Observe que 
como el RBL no hace uso del contenido de las observaciones, no produce hipôtesis que 
vayan mas alla del contenido lôgico del conocimiento bâsico y de las observaciones. Es 
un método de aprendizaje deductivo, y por si mismo no puede justificar la creaciôn de 
nuevo conocimiento sin un conocimiento inicial de partida. 

En el caso del estudiante de Medicina que observa al experto, asumimos que el co¬ 
nocimiento a priori del estudiante es suficiente para inferir la enfermedad D del paciente 
a partir de los sintomas. Sin embargo esto no es suficiente para explicar el hecho de que 
el doctor prescriba una medicina concreta M. El estudiante necesita obtener otra régla: 
que M, generalmente, es una medicina efectiva contra la enfermedad D. Dada esta ré¬ 
gla, y el conocimiento a priori con el que cuenta el estudiante, éste puede explicar por 
qué el experto prescribe M en ese caso particular. Podemos generalizar este ejemplo para 
proponer la restricciôn: 

ConocimientoBâsico a Hipôtesis a Descripciones |= Clasificaciones (19.5) 
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APRENDIZAJE 
INDUCTIVO BASADO 
EN EL CONOCIMIENTO 


PROGRAMACIÔN 
LÔGICA INDUCTIVA 


Es decir, el conocimiento bâsico y la nueva hipôtesis se combinati para explicar los ejem- 
plos. Al igual que el aprendizaje inductivo puro, el algoritmo de aprendizaje debe pro- 
poner hipôtesis tan simples como sea posible, que sean consistentes con esta restricciôn. 
Los algoritmos que satisfacen la restricciôn (19.5) se denominan algoritmos de apren¬ 
dizaje inductivo basado en el conocimiento, o algoritmos KBIL ( Knowledge-Based 
Inductive Learning). 

Los algoritmos KBIL, que se describen en detalle en el Apartado 19.5, se han estu- 
diado principalmente en el campo de la programaciôn lôgica inductiva o ILP. En los 
sistemas ILP, el conocimiento a priori juega dos papeles clave en la reducciôn de la com- 
plejidad del aprendizaje: 


1. El tamano efectivo del espacio de hipôtesis se reduce para incluir ünicamente 
las teorfas que son consistentes con lo que ya se conoce, porque cualquier hi¬ 
pôtesis generada debe ser consistente tanto con el conocimiento a priori como 
con las nuevas observaciones. 

2. Para un conjunto dado de observaciones, el tamano de la hipôtesis que se requiere 
para construir una explicaciôn de las observaciones se debe reducir, porque el 
conocimiento a priori estarâ disponible para ayudar a las nuevas réglas en la ex¬ 
plicaciôn de las observaciones. Cuanto mas pequena sea la hipôtesis, mas fâcil 
sera encontrarla. 


Adicionalmente, para permitir el uso de conocimiento a priori en la inducciôn, los sis¬ 
temas ILP pueden formular hipôtesis en lôgica de primer orden general, en vez de uti- 
lizar el lenguaje restringido basado en atributos del Capltulo 18. Esto significa que 
pueden aprender en entornos que no pueden ser entendidos por sistemas mas simples. 


19.3 Aprendizaje basado en explicaciones 


Como hemos explicado en la introducciôn de este capitulo, el aprendizaje basado en ex¬ 
plicaciones es un método para extraer réglas generales a partir de observaciones parti- 
culares. Por ejemplo, considéré el problema de diferenciar y simplificar expresiones 
algebraicas (Ejercicio 9.15). Si diferenciamos la expresiôn X 2 , respecta a A, obtenemos 
2X. (Utilizamos una letra mayüscula para la variable desconocida, para distinguirla de 
la variable lôgica x.) En un sistema de razonamiento lôgico, el objetivo se puede expre- 
sar como P R HG u nta(D<?/7 va da (X 2 , X) — d, BC), con soluciôn d = 2X. 

Cualquier persona que conozca el câlculo diferencial puede ver esta soluciôn «por 
inspecciôn» como un resultado de la prâctica en la resoluciôn de este tipo de problemas. 
Un estudiante que se encuentra con este tipo de problemas por primera vez, o un pro- 
grama sin experiencia, tendra que realizar un trabajo mucho mas difïcil. La aplicaciôn 
de las réglas estândar de diferenciaciôn al final produce la expresiôn 1 X(2X(A (2_1) )), 
y esto se acaba simplificando a 2X. En la implementaciôn con programaciôn lôgica de 
los autores, esto da lugar a 136 pasos de prueba, de los cuales 99 se producen sobre ra¬ 
mas finales en la pmeba. Después de esta experiencia, nos gustarfa que el programa re- 
solviera el mismo problema mucho mas râpido la siguiente vez que surja. 
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La técnica de memorizaciôn ha sido extensamente utilizada en informâtica para ace- 
lerar los programas guardando los resultados de la computaciôn. La idea bâsica de las 
funciones mémo es acumular una base de datos de pares entrada/salida; cuando se hace 
una llamada a la funciôn, ésta, en primer lugar, comprueba la base de datos para ver si 
se puede evitar que la resoluciôn del problema parta de cero. El aprendizaje basado en 
explicaciones lleva esta idea mas alla, creando réglas generales que cubren una clase com¬ 
pléta de casos. En el caso de la diferenciaciôn, la memorizaciôn permitiria recordar que 
la derivada de X 2 es 2X, pero si el agente tuviera que calcular la derivada de Z 2 respecto 
a Z, lo haria a partir de cero. Nos gustaria ser capaces de extraer la régla general 2 de que 
para cualquier variable desconocida u, la derivada de ir respecto a u es 2 u. En términos 
lôgicos, esto se expresa mediante la régla: 

ExpresionDesconocida(u) => DerivadaÇu 2 , ü) = 2 u 

Si la base de conocimiento contiene esta régla, cualquier instancia de ella podrâ resol- 
verse de forma inmediata. 

Por supuesto, éste es simplemente un ejemplo trivial de un fenômeno muy gene¬ 
ral. Una vez que algo se entiende, puede ser generalizado y reutilizado en otras cir- 
cunstancias. Se convierte en un paso «obvio» que, posteriormente, puede utilizarse 
como un bloque para resolver problemas todavfa mas complejos. Alfred North Whi- 
tehead (1911), coautor con Bertrand Russell de Principia Mathematica, escribiô: «La 
Civilizaciôn avanza extendiendo el numéro de operaciones importantes que puede re¬ 
al izar sin necesidad de pensar », quizâs él también aplicô EBL a su entendimiento de 
los acontecimientos, como en el descubrimiento de Zog. Si el lector ha entendido la 
idea bâsica del ejemplo de la diferenciaciôn, su cerebro ya estarâ ocupado intentando 
extraer los principios generales del aprendizaje basado en explicaciones a partir de él. 
Observe que todavîa no habfa descubierto el EBL antes de que viera el ejemplo. Al 
igual que los hombres primitivos observando a Zog, necesitâbamos un ejemplo antes 
de que pudiéramos generar los principios bâsicos. El motivo de que ocurra esto es que 
explicar por qué algo es una buena idea es mucho mas sencillo que plantearse la idea 
en primer lugar. 


Extraer réglas generales a partir de ejemplos 

La idea en la que se basa EBL consiste en construir, en primer lugar, una explicaciôn de 
la observaciôn, utilizando conocimiento a priori, y posteriormente, establecer una defi- 
niciôn de la clase de casos para los que se puede utilizar la misma estructura de expli¬ 
caciôn. Esta defmiciôn proporciona las bases para una régla que cubra todos los casos 
en la clase. La «explicaciôn» puede ser una prueba lôgica, aunque de forma mas gene¬ 
ral, puede ser cualquier proceso de razonamiento o de resoluciôn de problemas cuyos 
pasos estén bien definidos. La clave es ser capaz de identificar las condiciones necesa- 
rias para que los mismos pasos se puedan aplicar a otro caso. 


2 

~ Por supuesto, también se puede producir una régla general para u", pero el ejemplo actual es suficiente para 
este punto. 
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Para nuestro sistema de razonamiento utilizaremos el demostrador de teoremas con 
encadenamiento hacia atrâs simple que se describio en el Capftulo 9. El ârbol de prue- 
ba para Derivada(X 2 , X) = 2X es muy grande para utilizarlo como ejemplo, asi que nos 
basaremos en un problema mas sencillo para ilustrar el método de generalizacion. Su- 
ponga que nuestro problema consiste en simplificar 1 X (0 + X). La base de conocimiento 
incluye las siguientes réglas: 

Reescribir(u, v) a Simplificar(y, w) => Simplifiear{u, w ) 

Primitiva(u ) => Simplificar(u, u) 

ExpresionDesconocida(u) => Primitiva(u ) 

Numeroiu) => Primitiva(u ) 

Reescribir{\ Xu, u) 

Reescribir(0 + u, u ) 

La prueba de que la respuesta es X se muestra en la parte de arriba de la Ligura 19.7. 
Realmente, el método EBL constmye simultâneamente dos ârboles de pmeba. El segundo 
ârbol utiliza una meta variabilizada, en la que las constantes de la meta original han sido 



SU { } 


Figura 19.7 Ârboles de prueba para el problema de simplification. El primer ârbol muestra la 
prueba para el problema original, del que se puede derivar 

ExpresionDesconocida(z) => SimplificaR 1 X (0 + z), z) 

El segundo ârbol muestra la prueba para un problema en el que todas las constantes se han susti- 
tuido por variables, de este ârbol se pueden derivar otras réglas. 
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sustituidas por variables. Como la prueba original tiene éxito, la prueba con la meta va- 
riabilizada también lo tiene, aplicando exactamente las mismas réglas. Esto podria cau- 
sar que algunas de las variables se instanciaran. Por ejemplo, para usar la régla Reescrihiii 
1 x u, u), la variable x en la submeta Reescribir{x X (y + z), v), debe tomar el valor 1. De 
la misma forma, y debe tomar el valor 0 en la submeta Reescribiriy + z, v'), para utili- 
zar la régla Reescribir(0 + u, u). Una vez que hemos generalizado el ârbol de prueba, 
tomamos las hojas (con las asignaciones necesarias) y formamos una régla general para 
el predicado meta: 

Reescribir{\ X (0 + z), 0 + z) a Reescribir(0 + z, z) a ExpresionDesconocida{z) => 

=> Simplificar(\ X (0 + z), z) 

Observe que las dos primeras condiciones de la parte izquierda son verdaderas inde- 
pendientemente del valor de z y, por lo tanto, las podemos eliminar: 

ExpresionDesconocida{z ) => Simplificari I X (0 + z), z) 

En general, se pueden eliminar condiciones de la régla final, si éstas no imponen res- 
tricciones sobre las variables de la parte derecha de la régla, porque la régla résultante 
seguirâ siendo verdadera y ademâs sera mas eficiente. Observe que no es posible eliminar 
la condiciôn ExpresionDesconocida{z), porque no todos los posibles valores de z son des- 
conocidos. Los valores que no son desconocidos requieren simplificaciones: por ejem¬ 
plo, si z era 2 x 3, la simplificacion correcta de 1 X (0 + (2 X 3)) séria 6 y no 2 X 3. 

Para recapitular, el proceso bâsico de EBL funciona de la siguiente forma: 

1. Dado un ejemplo, se construye una prueba para el predicado meta que se apli- 
ca al ejemplo, utilizando el conocimiento bâsico disponible. 

2. En paralelo, se construye un ârbol de prueba generalizado para la meta variabi- 
lizada, utilizando los mismos pasos de inferencia que en la prueba original. 

3. Se construye una nueva régla cuya parte izquierda estâ formada por las hojas del 
ârbol de pmeba y cuya parte derecha es la meta variabilizada (después de apli- 
car las asignaciones necesarias de la prueba generalizada). 

4. Se eliminan todas las condiciones que son verdaderas independientemente de 
los valores de las variables de la meta. 


Mejorar la eficiencia 

El ârbol de prueba generalizado de la Figura 19.7 realmente da lugar a mâs de una ré¬ 
gla generalizada. Por ejemplo, si finalizamos, o podamos, el desarrollo de la parte de¬ 
recha del ârbol, cuando se llega al paso Primitiva, tendriamos la régla: 

Primitiva(z) => Simplificar(\ X (0 + z), z) 

Esta régla es igualmente vâlida, pero mâs general que la régla con ExpresionDescono- 
cida, porque cubre los casos en los que z es un nümero. Se pueden extraer réglas toda- 
via mâs generales, podando después del paso Simplificar(y + z, w) obtendriamos la régla 

Simplificar(y + z, w) => Simplificar( 1 X (y + z), w) 
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En general, se puede extraer una régla de cada subârbol partial del ârbol de prueba ge- 
neralizado. El problema ahora es: /cuâl de estas réglas elegimos? 

La decision sobre qué régla generar viene determinada por la eficiencia. Existen très 
factores implicados en el anâlisis de la eficiencia para EBL: 

1. Anadir un gran numéro de réglas puede ralentizar el proceso de razonamiento, 
porque el mecanismo de inferencia debe comprobar las réglas incluso en los ca- 
sos en los que no llevan a una solucion. En otras palabras, se incrementa el fac¬ 
tor de ramificaciôn del espacio de büsqueda. 

2. Para compensar el descenso de velocidad en el razonamiento, las réglas obte- 
nidas en los casos que cubren deben dar lugar a incrementos significatives en 
la velocidad. Principalmente, estos incrementos se producen porque las réglas 
obtenidas evitan ramas que conducen a fracaso, que en otro caso podrian haberse 
tomado, pero también porque reducen la propia prueba. 

3. Las réglas obtenidas deben ser tan genéricas como sea posible, para que se pue- 
dan aplicar al mayor nümero posible de casos. 

Un enfoque muy comün para asegurar que las réglas obtenidas son eficientes es insistir 
operacionalidad e n la operacionalidad de cada submeta de la régla. Una submeta es operacional si es 
«fâcil» de resolver. Por ejemplo, la submeta Primitiva(z) es fâcil de resolver, ya que re¬ 
quière como mâximo dos pasos, mientras que la submeta Simplificar(y + z, w) puede dar 
lugar a una cantidad de inferencia arbitraria, dependiendo de los valores de y y z. Si en 
cada paso de la construcciôn de la prueba generalizada llevamos a cabo un test sobre la 
operacionalidad, podremos podar lo que falta de una rama tan pronto como encontre- 
mos una submeta operacional, manteniendo la meta operacional como una conjuncion 
en la nueva régla. 

Desgraciadamente, existe un compromiso entre operacionalidad y generalidad. Nor- 
malmente, las submetas mas especificas son mas faciles de resolver, pero cubren pocos 
casos. También es cierto que la operacionalidad es una cuestion de grado: tener que re- 
alizar uno o dos pasos es algo claramente operacional, pero ^qué podemos decir respecto 
a la operacionalidad para 10 o 100 pasos? Finalmente, el coste de resolver una subme¬ 
ta dada dépende de las otras réglas que contiene la base de conocimiento. Puede aumentar 
o disminuir a medida que se van anadiendo mas réglas. Por este motivo, los sistemas de 
EBL se enfrentan realmente a un problema de optimizacion muy complejo, cuando in- 
tentan maximizar la eficiencia de una base de conocimiento inicial dada. En algunas oca- 
siones, es posible derivar un modelo matemâtico del efecto que produce la adicion de 
una determinada régla en la eficiencia global, para posteriormente utilizar este modelo 
a la hora de seleccionar la mejor régla. El anâlisis puede resultar muy complicado, es- 
pecialmente cuando hay réglas recursivas implicadas. Un enfoque prometedor, consis¬ 
te en solucionar el problema de la eficiencia de una forma empmca, es decir, simplemente 
se anaden varias réglas y se observa cuâles de ellas son ütiles y realmente aceleran el 
proceso. 

En realidad, el anâlisis empfrico de la eficiencia es el corazôn del EBL. Lo que he- 
mos denominado la «eficiencia de una base de conocimiento» es realmente la comple- 
jidad, para el caso medio, de una distribucion de problemas, generalizando a partir de 
ejemplos de problemas pasados, el EBL hace la base de conocimiento mâs eficiente, para 
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el tipo de problemas que es razonable esperar. A base de realizar este trabajo, la distri- 
buciôn de ejemplos pasados se va aproximando mas a la de ejemplos futures (la misma 
suposiciôn que se utilizaba en el PAC-aprendizaje en el Apartado 18.5). Si el sistema 
EBL se disena cuidadosamente, es posible obtener velocidades significativas. Por ejem- 
plo, un sistema de lenguaje natural basado en Prolog, disenado para traducciôn de ha- 
bla entre sueco e inglés fue capaz de conseguir un buen funcionamiento en tiempo real, 
gracias a la aplicaciôn del EBL en el proceso del analizador sintâctico (Samuelsson y 
Rayner, 1991). 


19.4 Aprendizaje basado en informacion relevante 


Parece que nuestro turista en Brasil es capaz de hacer una generalizaciôn segura sobre 
el idioma que hablan otros brasilenos. Su conocimiento bâsico autoriza la inferencia: la 
gente del mismo pais (normalmente) habla el mismo idioma. Esto se puede expresar en 
lôgica de primer orden de la siguiente manera 3 : 

NacionaUdadix, ri) a Nacionalidadiy, n) a Idioma{x, l) => Idioma(y, l) (19.6) 

(Traducciôn literal: «si x e y tienen la misma nacionalidad n, y x habla el idioma /, en¬ 
fonces y también habla este idioma.») No es dificil demostrar que a partir de esta sen- 
tencia y de la observaciôn, 

Nacionalidad(Fernando, Brasil) a Idioma(Fernando, Portugues) 

se deduce la siguiente conclusion (ver Ejercicio 19.1). 

Naciona\idad{x, Brasil) => Idioma(x, Portugues) 

Las sentencias como la (19.6) expresan una forma estricta de relevancia: dada una na¬ 
cionalidad, el idioma queda totalmente determinado. (Dicho de otro modo: el idioma es 
dependencias funciôn de la nacionalidad.) Estas sentencias se denominan dependencias funcionales 

FUNCIONALES # r 

o determinaciones. Son tan comunes en algunos tipos de aplicaciones, (por ejemplo, 
determinaciones definiendo disenos de bases de datos) que se utiliza una sintaxis especial para escribir- 
las. Adoptaremos la notaciôn de Davies (1985): 

N acionaUdadix, n) > Idiomaix, l) 

Esto es simplemente el azûcar sintâctico al que ya estamos acostumbrados, pero déjà 
claro que la determinaciôn es realmente una relaciôn entre los predicados: la nacionali¬ 
dad détermina el lenguaje. Las propiedades relevantes que determinan la conductancia 
y la densidad se pueden expresar de una forma similar: 

Materialix, ni) a Temperaturaix, t) > Conductanciaix, p); 

Materialix, m) a Temperaturaix, t) > Densidadix, d) 


3 ... •, , 

Para simplificar asumimos que una persona solo habla un idioma. Obviamente, la régla también deberia 
ser enmendada para pafses como Suiza o India. 
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Las generalizaciones correspondientes se obtienen logicamente a partir de las determi- 
naciones y de las observaciones. 


Determinar el espacio de hipôtesis 



Aunque las determinaciones autorizan la obtenciôn de conclusiones generales para to- 
dos los brasilenos, o para todas las piezas de cobre a una temperatura dada, por supues- 
to, no pueden dar lugar a una teoria de predicciôn general para todas las nacionalidades, 
o para todas las temperaturas y materiales, a partir de un simple ejemplo. Se puede de- 
cir que su principal efecto es que limitan el espacio de hipôtesis que el agente de apren- 
dizaje necesita considerar. Por ejemplo, para predecir la conductancia, se necesita 
considerar ünicamente el material y la temperatura, y se puede ignorar la masa, el pro- 
pietario, el dia de la semana, el présidente actual, etc. Desde luego, las hipôtesis pueden 
incluir términos que vienen determinados por el material y la temperatura, como la es- 
tructura molecular, la energia térmica, o la densidad de electrones libres. Las determi¬ 
naciones especifican un vocabulario bâsico suficiente para construit■ hipôtesis relativas 
al predicado principal. Esta sentencia se puede demostrar mostrando que una determi- 
naciôn dada es logicamente équivalente a una sentencia en la que el predicado principal 
es uno de los elementos del conjunto de todas las definiciones que se pueden expresar 
utilizando los predicados de la parte derecha de la determinaciôn. 

Intuitivamente, esta claro que una reducciôn en el tamano del espacio de hipôtesis 
deberfa hacer mas fâcil el aprendizaje del predicado principal. Utilizando los resultados 
bâsicos de la teoria computacional del aprendizaje (Apartado 18.5), podemos cuantifi- 
car las ganancias posibles. Primero, recuerde que para las funciones Booleanas, se re- 
quieren log(|H|) ejemplos, donde |H| es el tamano del espacio de hipôtesis, para que haya 
convergencia hacia una hipôtesis razonable. Si el aprendiz cuenta con n caracteristicas 
booleanas para construir las hipôtesis, en ausencia de restricciones adicionales, 
|H| = 0{ 2 2 ' '), por lo que el nümero de ejemplos es 0(2"). Si la determinaciôn contiene d 
predicados en su parte izquierda, el aprendiz necesitarâ solo 0(2 d ) ejemplos, una reduc¬ 
ciôn de 0{2 n ~ d ). Para espacios de hipôtesis restringidos, como un espacio restringido de 
forma conjuntiva, la reducciôn sera menos dramâtica, pero seguirâ siendo signifieativa. 


Aprender y utilizar informaciôn relevante 

Como ya comentamos en la introducciôn de este capitulo, el conocimiento a priori es 
muy ütil para el aprendizaje, pero también tiene que aprenderse. Por lo tanto, para co- 
nocer completamente el aprendizaje basado en informaciôn relevante, debemos pro- 
porcionar un algoritmo de aprendizaje para determinaciones. El algoritmo de aprendizaje 
que vamos a presentar se basa en un intento sencillo para encontrar la determinaciôn mas 
simple que es consistente con las observaciones. Una determinaciôn P > Q indica que 
si algunos ejemplos encajan con P, también deben encajar con Q. Por lo tanto, una de¬ 
terminaciôn es consistente con un conjunto de ejemplos, si cada par que encaja con los 
predicados de la parte izquierda también encaja con el predicado principal, es decir, tie- 
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ne la misma clasificaciôn. Por ejemplo, suponga que tenemos los siguientes ejemplos, 
relativos a medidas de conductancia en unas muestras de material: 


Muestra 

Masa 

Temperatura 

Material 

Tamano 

Conductancia 

SI 

12 

26 

Cobre 

3 

0,59 

SI 

12 

100 

Cobre 

3 

0,57 

S2 

24 

26 

Cobre 

6 

0,59 

S3 

12 

26 

Plomo 

2 

0,05 

S3 

12 

100 

Plomo 

2 

0,04 

S4 

24 

26 

Plomo 

4 

0,05 


La determinaciôn consistente mmima es Material a Temperatura > Conductancia. 
Existe una determinaciôn no minima, pero consistente: Ma sa a Tamano a Temperatu¬ 
ra > Conductancia. Es consistente con los ejemplos porque la masa y el tamano deter- 
minan la densidad, y en nuestro conjunto de datos no tenemos dos materiales diferentes 
con la misma densidad. Como es usual, necesitariamos una muestra mas grande para eli- 
minar una hipôtesis casi correcta. 

Existen varios algoritmos para encontrar determinaciones consistentes mmimas. El 
enfoque mas obvio es hacer una büsqueda en el espacio de las determinaciones, com- 
probando todas las determinaciones con un predicado, dos predicados, etc., hasta que 
se encuentre una determinaciôn consistente. Asumiremos una representaciôn sencilla ba- 
sada en atributos, como la que se utilizô en el aprendizaje de ârboles de decision del Ca- 
pitulo 18. Una determinaciôn d se representarâ mediante el conjunto de atributos de la 
parte izquierda, porque se asume que el predicado principal es fijo. El algoritmo bâsico 
se puede observar en la Figura 19.8. 


funciôn Det-Consistente-Minima(£, A) devuelve un conjunto de atributos 
entrada: E, un conjunto de ejemplos 

A, un conjunto de atributos de tamano n 

para i = 0,..., n hacer 

para cada subconjunto A, de A de tamano i hacer 
si Det-Consistente?(A 1 ., E) entonces devolver A i 


funciôn Det-Consistente? (A, E) devuelve un valor de verdad 
entrada: A, un conjunto de atributos 
E. un conjunto de ejemplos 
variables locales: H, una tabla hash 

para cada ejemplo e en E hacer 

si algün ejemplo de H tiene los mismos valores que e para los atributos A, pero 
diferente clasificacion entonces devolver falso 
guardar la clase de e en H , indexada por los valores para los atributos A del ejemplo e 
devolver verdadero 


Figura 19.8 Un algoritmo para encontrar la determinaciôn consistente minima. 
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RESTRICCIONES 

DECLARATIVAS 


La complejidad en tiempo de este algoritmo dépende del tamano de la determina¬ 
ciôn mas pequena que sea consistente. Suponiendo que esta determinaciôn tiene p atri- 
butos de n atributos totales, el algoritmo no la encontrarâ hasta que busqué en los 

(n\ 

subconjuntos de A de tamano p. Existen = 0{n p ) subconjuntos de este tamano; 


as! que el algoritmo es exponencial en el tamano de la determinaciôn minima. Por lo tan- 
to, como el problema résulta ser NP-completo, no se puede esperar que en el caso ge¬ 
neral sea mejor. Sin embargo, la mayoria de los dominios tendrân la suficiente estructura 
local (véase Capitulo 14 para una definiciôn de dominios localmente estructurados) para 
que p sea pequena. 

Dado un algoritmo para el aprendizaje de determinaciones, un agente de aprendiza- 
je cuenta con una forma de construir una hipôtesis minima con la que aprender el pre- 
dicado meta. Por ejemplo, podemos combinar Det-Consistente-Minima con el algoritmo 
Aprendizaje-Ârbol-Decisiôn. Esto lleva a un algoritmo de aprendizaje de ârboles de 
decision basado en relevancia (RBDTL), que primera identifica el conjunto minimo de 
atributos relevantes y después pasa este conjunto al algoritmo de aprendizaje del ârbol 
de decision. Al contrario que Aprendizaje-Ârbol-Decisiôn, RBDTL simultâneamen- 
te aprende y utiliza informaciôn relevante para minimizar el espacio de hipôtesis. Se es¬ 
péra que RBDTL aprenda mas râpidamente que Aprendizaje-Ârbol-Decisiôn, de 
hecho asi es. La Figura 19.9 muestra el rendimiento del aprendizaje de los dos algorit- 
mos, sobre datos generados aleatoriamente para una funciôn que dépende solo de cin- 
co de 16 atributos. Obviamente, en los casos en que todos los atributos son relevantes, 
RBDTL no supone ninguna ventaja. 

Esta secciôn ünicamente introduce el campo de las restricciones declarativas, que 
ayuda a entender como se puede utilizar el conocimiento a priori para identificar el es¬ 
pacio de hipôtesis apropiado para buscar la definiciôn meta correcta. Aün quedan mu- 
chas preguntas sin respuesta: 



Figura 19.9 Comparaciôn entre el rendimiento de RBDTL y Aprendizaje-Ârbol-Decisiôn, re- 
alizada sobre datos generados aleatoriamente para la funciôn meta, que dépende exclusivamente 
de cinco de 16 atributos. 
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• (,C6mo se pueden extender los algoritmos para manejar el ruido? 

• (,Como manejar variables con valor continuo? 

• / Coino se pueden utilizar otros tipos de conocimiento a priori, ademâs de las de- 
terminaciones? 

• /Como se pueden generalizar los algoritmos para que puedan trabajar con cual- 
quier teoria de primer orden, en vez de ünicamente con una représentation basa- 
da en atributos? 

Algunas de estas cuestiones se responden en la siguiente section. 


19.5 Programacion logica inductiva 


La programacion logica inductiva (ILP) combina los métodos de induccion con la poten- 
cia de las representaciones de primer orden, concentrândose en particular en las represen- 
taciones de teorfas como programas logicos 4 . Tiene popularidad por très razones. Primero, 
ILP ofrece un enfoque riguroso al problema general de aprendizaje inductivo basado en el 
conocimiento. Segundo, ofrece algoritmos completos para inducir teorfas de primer orden 
generales, a partir de los ejemplos. Estos algoritmos aprenden con éxito en dominios don- 
de los algoritmos basados en los atributos son diffciles de aplicar. Un ejemplo consiste en 
aprender como se pliega la estructura de las protefnas (Figura 19.10). La configuracion tri- 
dimensional de la molécula de las protefnas no puede ser representada razonablemente a 
través de un conjunto de atributos, ya que la configuracion inherente se refiere a las rela- 
ciones entre los objetos, no a los atributos de un ünico objeto. La logica de primer orden 
es un lenguaje apropiado para describir estas relaciones. Tercero, la programacion logica 
inductiva produce hipotesis que son (relativamente) faciles de entender por humanos. Por 
ejemplo, la traduction al castellano de la Figura 19.10 puede ser examinada y criticada por 
gente que trabaje en biologfa. Esto significa que los sistemas de programacion logica in¬ 
ductiva pueden participar en el ciclo cientffico de la expérimentation, génération de hipo¬ 
tesis, debates y réfutation. Dichas participaciones no podrfan ser posibles para sistemas que 
generan clasificadores de «caja-negra», como las redes de neuronas. 

Un ejemplo 

Recuerde de la Ecuacion (19.5) que el problema general de induccion basado en el co¬ 
nocimiento es «resolver» la restriction 

ConocimientoBâsico a Hipotesis a Descripciones |= Clasificaciones 

para la Hipotesis desconocida, dados el ConocimientoBâsico y los ejemplos descritos 
por las Descripciones y las Clasificaciones. Para ilustrar esto, usaremos el problema de 
aprendizaje de relaciones familiares a partir de ejemplos. Las descripciones consistirân 
en un ârbol genealôgico extendido, descrito en términos de Madré, Padre, la relation 


4 Séria apropiado en este punto para el lector remitirse al Capltulo 9 para algunos de los conceptos que apa- 
recen, incluyendo clâusulas de Hom, forma normal conjuntiva, unificacion y resolucion. 
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2mhr - Haz-cuatro-hélices arriba-y-abajo 1 omd - EF-Mano 


(a) (b) 


Figura 19.10 (a) y (b) muestran ejemplos positivos y negativos, respectivamente, del concepto 

«haz cuatro-hélices arriba-y-abajo» en el dominio del pliegue de protemas. Cada estructura del ejem- 
plo se codifica como una expresion logica de unas 100 conjunciones taies como 
LongitudTotal(D2mhr, \\%)rJPûmeroHélices{D2mhr, 6) a... A partir de estas descripciones y cla- 
sificaciones de la forma PfogMe(HAZ-CuATRO-HÉLiCES Arriba-Y-Abajo, D2mhr), el sistema de pro- 
gramaciôn logica inductiva PROGOL (Muggleton, 1995) aprendla la siguiente régla: 

P//eg«e(HAZ-CuATRO-HÉLiCES Arriba-Y-Abajo, p ) <t= 

Hélice{p, h { ) a Longitud{h l5 Alta) a Posiciônip , h v n) 
a (1 < n < 3) a Adyacentes(p, h v h 2 ) a Hélice(p, h 2 ) 

Este tipo de régla podria no ser aprendida, o incluso representada, por un mecanismo basado en los 
atributos como vimos en los previos capitulos. La régla puede traducirse al castellano como 
La protema p tiene un pliegue de la clase «haz cuatro-hélices arriba-y-abajo» si contiene 
una hélice larga h i en una posiciôn de estructura secundaria entre I y 3 y esta prôxima 
a una segunda hélice. 


CasadoCon y las propiedades Hombre y Mujer. Como ejemplo, usaremos el ârbol ge- 
nealôgico del Ejercicio 8.11, mostrado en la Figura 19.11. A continuaciôn se muestran 
las correspondientes descripciones: 

Padre(Philip, Charles) Padre(Philip, Anne) 

Madre(Mum, Margaret) Madre(Mum, Elizabeth) 

CasadoCon{Diana, Charles) CasadoCon(Elizabeth, Philip) ... 
HombreiPhilip) Hombre(Charles) 

Mujer(Beatrice) Mujer{Margaret) 
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Las sentencias en Clasificaciones dependen del concepto objetivo que esta siendo apren- 
dido. Podrfamos querer aprender Abuelo/a, Cuhado, o Ancestro, por ejemplo. Para 
Abuelo/a, el conjunto compléta de Clasificaciones contiene 20 X 20 = 400 conjuncio- 
nes de la forma 


Abuelo/a(Mum, Charles) Abuelo/a(Eliiabeth, Béatrice) ... 
-lAbuelo/aQVfum, Harry) ~iAbuelo/a(Spencer, Peter) 


Podrfamos, por supuesto, aprender a partir de un subconjunto de este conjunto compléta. 

El objetivo de un programa de aprendizaje inductivo es proponer un conjunto de sen¬ 
tencias para la Hipôtesis, tal que la restriccion se satisfaga. Suponga, por el momento, 
que el agente no tiene conocimiento bâsico: ConocimientoBâsico es vacio. Enfonces una 
posible solucion para la Hipôtesis es la siguiente: 


AbueIo/a(x,y) <=> 
v 
v 
v 


[3z Madreipc, z) a Madreiz, _y)] 
[3z Madreix, z) a Padre(z, _y)] 
[3z Padreix, z) a Madreiz. , y)] 
[3z Padreix, z) a Padre(z, y)] 


Notese que un algoritmo de aprendizaje basado en atributos, tal como Aprendizaje- 
Ârbol-Decisiôn, no conseguirâ nada a la hora de resolver este problema. Para poder ex- 
presar Abuelo/a como un atributo (es decir, un predicado unario), necesitamos convertir 
pares de personas en objetos: 

Abuelo/a((Mum, Charles))... 


Luego nos atascaremos intentando representar las descripciones del ejemplo. Los üni- 
cos atributos posibles tienen un aspecto tan horroroso como 

PrimerElementoEsMadreDeElisabeth({Mum, Charles)) 


La definicion de Abuelo/a en términos de estos atributos simplemente se convierte en 
una gran disyuncion de casos especfficos que no generaliza para nuevos ejemplos. Los 
algoritmos de aprendizaje basados en atributos son incapaces de aprender predicados 
relacionales. Por ello, una de las principales ventajas de los algoritmos de ILP es su apli- 
cabilidad a un mayor rango de problemas, incluyendo problemas de relaciones. 
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INDUCCIÔN 

CONSTRUCTIVA 


Desde luego, el lector habrâ notado que un poco de conocimiento bâsico ayudarfa 
en la representacion de la definicion de Abuelo/a. Por ejemplo, si ConocimientoBâsico 
incluye la sentencia 

Progenitor(x, y) <=> \ Madré (x , y) v Padre(x, y)] 

entonces la definicion de Abuelo/a se reduciria a 

Abuelo/a(x, y) <=> [3 z Progenitor(x, z) a Progenitor(z, y)] 

Esto muestra cômo el conocimiento bâsico puede reducir considerablemente el tamano 
de la hipotesis requerido para explicar las observaciones. 

Para los algoritmos de ILP también es posible crear nue vos predicados para expre- 
sar mas fâcilmente la hipotesis explicativa. Dado el ejemplo de datos mostrado ante- 
riormente, es razonable para el programa ILP proponer un predicado adicional, al que 
llamaremos « Progenitor », para simplificar las definiciones de los predicados meta. Los 
algoritmos que pueden generar nuevos predicados se denominan algoritmos de induc- 
ciôn constructiva. De forma mas clara, la inducciôn constructiva es una parte necesa- 
ria de la descripciôn del aprendizaje acumulativo esbozada en la introducciôn. Se ha 
considerado como uno de los problemas mas duros en el aprendizaje automâtico, pero 
algunas técnicas de ILP proporcionan mecanismos efectivos para conseguirla. 

En el resto del capitulo, estudiaremos dos enfoques principales de ILP. El primero 
usa una generalizacion de los métodos de ârboles de decision, y el segundo usa técni¬ 
cas basadas en la inversion de la prueba de resoluciôn. 


Métodos de aprendizaje inductivo de arriba 
a abajo ( Top-down) 

Los primeras enfoques en trabajos de ILP comienzan con una régla muy general que gra- 
dualmente se especializa hasta que encaja con los datos. Esto es esencialmente lo que 
ocurre en el aprendizaje de ârboles de decision, donde se construye incrementalmente 
un ârbol de decision hasta que es consistente con todas las observaciones. Para ILP usa- 
mos literales de primer orden en vez de atributos, y la hipotesis es un conjunto de clâu- 
sulas en vez de un ârbol de decision. En esta secciôn se describe LOIL (Quinlan, 1990), 
uno de los primeros programas de ILP. 

Suponga que estamos intentando aprender la definicion de Abuelo{x,y), usando los 
mismos datos familiares que antes. Al igual que el aprendizaje de ârboles de decision, 
podemos dividir los ejemplos en positivos y negativos. Los ejemplos positivos son 

{George, Anne), {Philip, Peter), {Spencer, Harry ),... 

y los ejemplos negativos son 

{George, Elizabeth), {Harry, Zara), {Charles, Philip), ... 

Nôtese que cada ejemplo es un par de objetos, ya que Abuelo es un predicado binario. 
Existen 12 ejemplos positivos en el ârbol genealogico y 388 ejemplos negativos (todos 
ellos pares de personas). 
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FOIL construye un conjunto de clâusulas, cada una con Abueloix,y) en la cabeza. Las 
clâusulas deben clasificar los 12 ejemplos positivos como instancias de la relaciôn Abue¬ 
loix,y), y desechar los 388 ejemplos negativos. Las clâusulas son clâusulas de Hom, ex- 
tendidas con literales negados usando la negacion como fallo, al igual que en Prolog. La 
clâusula inicial tiene cuerpo vacfo: 

=> Abueloix, y) 

Esta clâusula clasifica todos los ejemplos como positivos, asi que necesita ser especia- 
lizada. Hacemos esto anadiendo literales a su parte izquierda, de uno en uno. A conti¬ 
nuation se muestran très adiciones posibles: 

Padre(x, y) => Abueloix, y) 

Progenitor(x, z ) => Abueloix, y) 

Padre(x, z) => Abueloix, y) 

(Nôtese que estamos asumiendo que una clâusula que define Progenitor forma parte del 
conocimiento bâsico.) La primera de estas très clâusulas clasifica incorrectamente to¬ 
dos los 12 ejemplos como negativos, asi que puede ser ignorada. La segunda y la terce- 
ra clasifican correctamente los ejemplos positivos, pero la segunda es incorrecta con una 
gran parte de los ejemplos negativos (dos veces como mucho, ya que permite tanto ma¬ 
drés como padres). Luego, preferiremos la tercera clâusula. 

Ahora, necesitamos especializar mâs la clâusula, para desechar los casos en los que 
x es el padre de z, pero z no es el progenitor de y. Anadiendo el literal Progenitor{z,y) 
obtenemos 

Padre(x, z) a Progenitor(z, y) => Abueloix, y) 

que clasifica correctamente todos los ejemplos. Foil encontrarâ y elegirâ este literal, re- 
solviendo la tarea de aprendizaje. En general, Foil tendrâ que buscar en muchas clâu¬ 
sulas sin éxito antes de encontrar la soluciôn correcta. 

Este ejemplo es una ilustracion sencilla de como opéra Foil. En la Figura 19.12 se 
muestra un esqueleto del algoritmo completo. Esencialmente, el algoritmo construye re- 
petidamente una clâusula, literal a literal, hasta que verifica todo el subconjunto de 
ejemplos positivos y ninguno de los ejemplos negativos. Enfonces los ejemplos positi¬ 
vos cubiertos por la clâusula se borran del conjunto de entrenamiento, y el proceso con- 
tinüa hasta que no quedan ejemplos positivos restantes. Las dos subrutinas principales 
que se explican son Nuevos-Literales, que construye todos los posibles nuevos litera¬ 
les para anadir a la clâusula, y Elegir-Literal, que selecciona el literal que se anade. 

Nuevos-Literales toma una clâusula y construye todos los posibles literales «uti¬ 
les» que pudieran ser anadidos a la clâusula. Usemos como ejemplo la clâusula 

PadreQc, z) => Abueloix, y) 

Se pueden anadir très clases de literales: 

1. Literales que utilizan predicados : el literal puede estar negado o no, se puede 
usar cualquier predicado existente (incluyendo el predicado meta), y todos los 
argumentos deben ser variables. Se puede usar cualquier variable en cualquier 
argumento del predicado, con una restriction: cada literal debe incluir al menos 
una variable de un literal anterior o de la cabeza de la clâusula. Se permiten li- 
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finition FOlL(ejemplos, objetivo) devuelve un conjunto de clâusulas de Horn 
entradas: ejemplos, conjunto de ejemplos 

objetivo , un literal para el predicado meta 
variables locales: clâusulas, conjunto de clâusulas, inicialmente vaclo 

mientras ejemplos contenga ejemplos positivos hacer 
clâusula <— NuEVA-CLÂusuLA(<yeff7p/c«, objetivo ) 
borrar los ejemplos cubiertos por clâusula en ejemplos 
anadir clâusula a clâusulas 
devolver clâusulas 


funcion NuEVA-CLÂusuLA(Éyewp/c«, objetivo) devuelve una clâusula de Horn 

variables locales: clâusula, una clâusula con objetivo como cabeza y con cuerpo vacfo 
I, un literal para anadirse a la clâusula 

ejemplos_extendidos, un conjunto de ejemplos con valores para 
nuevas variables 

ejemplos_extendidos *— ejemplos 

mientras ejemplos_extendidos contenga ejemplos negativos hacer 

/ <— ELEGiR-LiTERAL(NuEVOS-LiTERALEs(c/ût«u/fl), ejemplosextendidos) 
anadir / al cuerpo de la clâusula 

ejemplos_extendidos <— conjunto de ejemplos creados aplicando 
Extender-Ejemplo a cada ejemplo en ejemplos extendidos 
devolver clâusula 


funcion Extender-Ejemplo ( ejemplo, literal ) devuelve 
si ejemplo satisface el literal 

entonces devolver el conjunto de ejemplos creados extendiendo ejemplo con 
cada posible valor de constante para cada nueva variable en literal 
si no devolver el conjunto vacio 


Figura 19.12 Esqueleto del algoritmo Foil para aprendizaje de conjuntos de clâusulas de Horn 
de primer orden a partir de ejemplos. Nuevos-Literales y Elegir-Literal se explican en el texto. 


terales taies como Madre(z, u), CasadoCon(z, z), Hombreiy ) y Abueloiv, x), 
mientras que CasadoCon{u, v) no. Notese que el uso del predicado de la cabe¬ 
za de la clâusula permite a Foil el aprendizaje de definiciones recursivas. 

2. Literales de igualdady no-igualdad\ relacionan variables que ya han aparecido 
en la clâusula. Por ejemplo, podemos anadir z A x. Estos literales también pue- 
den incluir constantes especificadas por el usuario. Para el aprendizaje de arit- 
mética podrfamos usar el 0 y el 1, y para el aprendizaje de listas de funciones 
podrfamos usar la lista vacia [ ]. 

3. Comparaciones aritméticas : cuando se trata con funciones de variables conti¬ 
nuas, se pueden anadir literales de la forma x > y y v ^ z. Al igual que en el apren¬ 
dizaje de ârboles de decision se puede elegir un valor constante que sirva de 
umbral para maximizar el poder discriminatorio del test. 

El factor de expansion résultante en este espacio de büsqueda es muy grande (véase el 
Ejercicio 19.6), pero FOIL puede usar informaciôn de tipo para reducirlo. Por ejemplo, 






CONOCIMIENTO EN EL APRENDIZAJE 801 


si el dominio incluye numéros y personas, las restricciones de tipo prevendrian que Nue- 
vos-Literales generase literales de la forma Padre{x,n), donde x es una persona y « es 
un nümero. 

Elegir-Literal usa una heuristica parecida a la ganancia de informaciôn (véase Apar- 
tado 18.3) para decidir qué literal anadir. Los detalles exactos no son importantes aqui, 
pero se ha probado con distintas variantes. Una caracteristica adicional de FOIL es el 
uso de la navaja de Ockham para eliminar algunas hipotesis. Si una clâusula se hace mas 
larga (de acuerdo con alguna métrica) que la longitud total de los ejemplos positivos que 
la clâusula explica, dicha clâusula no se considéra como una hipotesis potencial. Esta 
técnica proporciona una forma de evitar clâusulas demasiado complejas que producen 
ruido en los datos. Consultar el Apartado 20.1 para una explicaciôn de la relaciôn entre 
el mido y el tamano de las clâusulas. 

Foil y sus semejantes se han usado para aprender una amplia variedad de definiciones. 
Una de las demostraciones mâs impresionantes (Quinlan y Cameron-Jones, 1993) su- 
ponia resolver una gran secuencia de ejercicios de funciones de procesamiento de listas 
del libro de Prolog de Bratko (1986). En cada caso, el programa era capaz de aprender 
una definicion correcta de la funcion a partir de un pequeno conjunto de ejemplos, 
usando las funciones aprendidas previamente como conocimiento bâsico. 

Aprendizaje inductivo con deducciôn inversa 

El segundo enfoque principal de ILP supone invertir el proceso normal de prueba de de- 

RESOLUCION INVERSA . / T ■ • / • , a i i 

duccion. La resolucion inversa se basa en la observacion de que si el ejemplo tlasiji- 
caciones résulta de ConocimientoBâsico a Hipotesis a Restricciones, entonces se puede 
probar este hecho a través de resolucion (ya que la resolucion es compléta). Si podemos 
«ejecutar la pmeba hacia atrâs», podemos encontrar una hipotesis tal que la prueba 11e- 
gue a ella. La clave es encontrar una forma de invertir el proceso de resolucion. 

Mostraremos un proceso de prueba hacia atrâs para la resolucion inversa que con¬ 
siste en pasos hacia atrâs individuales. Recordando que un proceso normal de resolu¬ 
cion toma dos clâusulas C x y C 2 y las resuelve produciendo el resolvente C. Un paso de 
resolucion inversa toma un resolvente C y produce dos clâusulas C, y C 2 , tal que C es 
el resultado de resolver C\ y C\. De forma alternativa, se podria tomar un resolvente C 
y una clâusula C, y producir una clâusula C 2 de forma que C es el resultado de resolver 
C,yC 2 . 

En la Figura 19.13 se muestran los primeras pasos del proceso de resolucion inver¬ 
sa, donde nos centramos en el ejemplo positivo Abuelol a(George, Anne). El proceso co- 
mienza al final de la prueba (mostrada en la parte inferior de la figura). Tomamos el 
resolvente C como la clâusula vacia (es decir, una contradicciôn) y C 2 como -i Abue- 
lo/a(George, Anne), que es la negaciôn del ejemplo meta. El primer paso inverso toma 
C y C 2 y généra la clâusula Abuelola{George, Anne) para C v El siguiente paso toma esta 
clâusula como C y la clâusula Progenitor(Elizabeth, Anne) como C 2 , y généra la clâu¬ 
sula 

-i. Pwgenitor(Elizabeth , y) v Abuelola(George,y) 
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como C,. El ültimo paso trata esta clâusula como resolvente. Con Progenitor{George, 
Elizabeth ) como C 2 , una posible clâusula C 1 es la hipôtesis 

Progenitor(x, z ) a Progenitor(z, y) => Progenitor/a(x, y) 

Ahora tenemos una prueba de resolucion que a partir de las hipôtesis, descripciones y 
el conocimiento bâsico se deduce la clasificaciôn Abuelo/a{George, Anne). 

Obviamente, la resolucion inversa requiere una büsqueda. Cada paso de resolucion 
inversa es no deterministico, ya que para cualquier C, puede haber muchos o incluso un 
nümero infinito de clâusulas C v C 2 que resuelvan C. Por ejemplo, en vez de elegir 
-i. Progenitor(Elizabeth , y) v Abuelo/a(George, y) como C, en el ültimo paso de la Fi¬ 
gura 19.13, el paso de resolucion inversa podrfa haber elegido cualquiera de las si- 
guientes sentencias: 

-iProgenitor(EIizabeth, Anne) v Abuelo/a(George , Anne) 

-i. Progenitor{z , Anne) v Abuelo/a{George, Anne) 

-<Progenitor(x, y) v Abuelo/a(George, y) 

(Véanse los Ejercicios 19.4 y 19.5.) Ademâs, las clâusulas que participan en cada paso 
pueden elegirse del ConocimientoBâsico, de la Descripciôn de los ejemplos, de la ne- 
gaciôn de las Clasificaciones, o de las clâusulas hipôtesis que ya han sido generadas en 
el ârbol de resolucion inversa. El gran nümero de posibilidades conlleva un gran factor 
de ramificaciôn (y por ello una büsqueda ineficiente) sin contrôles adicionales. En sis- 
temas ILP se han implementado varios enfoques para mejorar la büsqueda: 

1. Pueden eliminarse opciones redundantes, por ejemplo, generando solo la hipô¬ 
tesis mâs especifica posible y requiriendo que todas las clâusulas hipôtesis sean 
consistentes entre si, y con las observaciones. Este ültimo criterio desecharfa la 
clâusula -i Progenitor{z, y) v Abuelo/a(George, y), mostrada anteriormente. 
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2. Se puede restringir la estrategia de prueba. Por ejemplo, en el Capitulo 9 se mos- 
trô que la resoluciôn lineal es compléta. Las estrategias reducidas permiten que 
los ârboles de prueba tengan solo estructuras de ramificaciôn lineal (tal como 
en la Figura 19.13). 

3. Se puede restringir el lenguaje de representaciôn, por ejemplo eliminando los 
slmbolos de funciones o permitiendo solo clâusulas de Horn. Por ejemplo, Pro- 
GOL opéra con clâusulas de Horn usando deducciôn inversa. La idea es cam- 
biar la restricciôn 

ConocimientoBâsico a Hipôtesis a Descripciones |= Clasificaciones 

por la siguiente formula lôgicamente équivalente 

ConocimientoBâsico a Descripciones a -i Clasificaciones |= -»Hipôtesis 

A partir de esto, se puede usar un proceso similar a la deducciôn normal con la 
negaciôn como fallo que realiza Prolog con clâusulas de Horn, para derivar las 
Hipôtesis. Ya que se restringe a clâusulas de Horn, es un método incompleto, 
pero puede ser mâs eficiente que la resoluciôn compléta. También es posible apli- 
car inferencia compléta con deducciôn inversa, Inoue (2001). 

4. Se puede hacer la inferencia con comprobaciôn de modelos en vez de con de- 
mostraciôn de teoremas. El sistema Progol (Muggleton, 1995) usa un tipo de 
comprobaciôn de modelos para limitar la büsqueda. Es decir, al igual que en la 
programaciôn de conjuntos, généra posibles valores para variables lôgicas, y 
comprueba la consistencia. 

5. Se puede hacer la inferencia con clâusulas proposicionales instanciadas en vez 
de con lôgica de primer orden. El sistema Linus (Lavrac y Dzeroski, 1994) fun- 
ciona traduciendo teorias en lôgica de primer orden a lôgica proposicional, re- 
solviéndolas con un sistema de aprendizaje proposicional, y luego volviéndolas 
a traducir. Trabajar con formulas proposicionales puede ser mâs eficiente en al- 
gunos problemas, como se mostrô con SATplan en el Capitulo IL 

Hacer descubrimientos con la programaciôn 
lôgica inductiva 

Un procedimiento de resoluciôn inversa que invierte completamente la estrategia de re¬ 
soluciôn es, en principio, un algoritmo completo para el aprendizaje de teorias de pri¬ 
mer orden. Es decir, si alguna Hipôtesis desconocida généra un conjunto de ejemplos, 
un procedimiento de resoluciôn inversa puede generar Hipôtesis a partir de ejemplos. 
Esta observaciôn sugiere una posibilidad interesante: suponga que los ejemplos dispo¬ 
nibles incluyen varias trayectorias de cuerpos cayendo. ^Podrfa un programa de resolu¬ 
ciôn inversa ser teôricamente capaz de inferir la ley de la gravedad? Claramente la 
respuesta es que si, ya que la ley de la gravedad permite explicar los ejemplos, dada una 
base matemâtica adecuada. De forma similar, podemos imaginar que el electromagne- 
tismo, la mecânica cuântica y la teoria de la relatividad también pertenecen al âmbito 
de los programas de ILP. Por supuesto, se puede decir que también estân al alcance de 
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un mono con una mâquina de escribir; todavfa necesitamos heurfsticas mejores y nue- 
vas formas de estructurar el espacio de büsqueda. 

Algo que los sistemas de resoluciôn inversa pueden hacer por nosotros es inventar 
nuevos predicados. Esta capacidad a menudo parece algo mâgica, ya que normalmente 
parece que los computadores «trabajan solo con lo que se les da». De hecho, los nuevos 
predicados se generan directamente a partir de los pasos de resoluciôn inversa. El caso 
mas simple aparece cuando tomamos como hipôtesis dos nuevas clâusulas C, y C 2 , dada 
una clâusula C. La resoluciôn de Cj y C 2 élimina un literal que las dos clâusulas com- 
parten; a partir de aqui, es bastante posible que el literal eliminado contenga un predi- 
cado que no aparezca en C. Por ello, cuando se trabaja hacia atrâs, una posibilidad es 
generar un nuevo predicado a partir de reconstruir el literal que falta. 

La Figura 19.14 muestra un ejemplo en el cual el nuevo predicado P se généra en el 
proceso de aprendizaje de la definiciôn de Antecesor. Una vez generado, P se puede usar 
en pasos posteriores de resoluciôn inversa. Por ejemplo, un paso posterior podrfa tomar 
como hipôtesis Madre{x, y) => P(x, y). Por ello, el nuevo predicado P tiene su signifi- 
cado restringido por la generaciôn de hipôtesis relacionadas con él. Otro ejemplo podrfa 
llevamos a la restricciôn Padre(x, y) => P(x, y). En otras palabras, el predicado P es lo 
que hemos denominado la relaciôn Progenitor. Como mencionamos anteriormente, la 
invenciôn de nuevos predicados puede reducir el tamano de la definiciôn del predicado 
meta. Por lo tanto, incluyendo la habilidad de inventar nuevos predicados, los sistemas 
de resoluciôn inversa pueden resolver a menudo problemas que es inviable resolver con 
otras técnicas. 

Algunas de las revoluciones mas trascendentes que se han producido en la ciencia 
vienen de la invenciôn de nuevos predicados y funciones, por ejemplo, la invenciôn de 
la aceleraciôn de Galileo, o la invenciôn de la energia térmica de Joule. Una vez que es¬ 
tas términos estân disponibles, el descubrimiento de nuevas leyes se convierte en una 
tarea (relativamente) fâcil. La parte dificil recae en darse cuenta de que alguna nueva en- 
tidad, con una relaciôn especffica con entidades existentes, permitiria que un cuerpo en¬ 
tera de observaciones sea explicado de una forma mas simple y con teorias mas elegantes 
de las que previamente existfan. 

Hasta ahora, los sistemas ILP no han hecho descubrimientos al nivel de Galileo o Jou¬ 
le, pero sus descubrimientos han sido juzgados como publicables en la literatura cienti- 
fica. Por ejemplo, en la revista Journal of Molecular Biology, Turcotte et al. (2001) 
describen el descubrimiento automâtico de réglas para el pliegue de proternas usando el 
programa Progol de ILP Muchas de las réglas descubiertas por Progol podrîan haber 
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sido derivadas a partir de principios conocidos, pero la mayoria no habian sido previa- 
mente publicadas como parte de una base de datos biolôgicos estândar. (Puede observar 
un ejemplo en la Figura 19.10.) En trabajos relacionados, Srinivasan et al. (1994) trata- 
ban el problema de descubrir réglas basadas en la estructura molecular para la mutaciôn 
de componentes nitroaromâticas. Estas componentes se encontraron en gases de auto- 
moviles. Para el 80 por ciento de las componentes de una base de datos estândar, es po- 
sible identificar cuatro caracteristicas importantes. La regresiôn lineal sobre estas 
caracterfsticas mejora a ILP Para el restante 20 por ciento, las caracteristicas por sepa- 
rado no pueden predecirse, e ILP identifica relaciones que le permiten mejorar la regre- 
sion lineal, las redes de neuronas y los ârboles de decision. King et al. (1992) mostrô como 
predecir la eficacia terapéutica de varias drogas a partir de su estructura molecular. En 
todos estos ejemplos se observa que tanto la habilidad de representar relaciones como el 
uso de conocimiento bâsico contribuyen al alto rendimiento de ILP El hecho de que las 
réglas encontradas por ILP puedan ser interpretadas por los humanos contribuye a la acep- 
tacion de estas técnicas tanto en revistas de Biologfa como en revistas de informâtica. 

ILP ha contribuido a otras ciencias ademâs de la Biologla. Una de las mas impor¬ 
tantes es el procesamiento del lenguaje natural, donde ILP se ha usado para extraer in- 
formacion relacional compleja a partir de un texto. Estos resultados se resumen en el 
Capitulo 23. 


18.6 Resumen 


En este capitulo se han investigado varias formas de utilizar el conocimiento a priori para 
ayudar a un agente a aprender de nuevas experiencias. Ya que mucho conocimiento a 
priori se expresa mas en términos de modelos relacionales que en modelos basados en 
atributos, el capitulo también cubre sistemas que permiten el aprendizaje de modelos re¬ 
lacionales. Los puntos importantes son: 

• El uso de conocimiento a priori en el aprendizaje lleva al aprendizaje acumula- 
tivo, en el que el agente mejora su habilidad de aprender a medida que adquiere 
mas conocimiento. 

• El conocimiento a priori ayuda en el aprendizaje mediante la eliminaciôn de hi- 
potesis, en otro caso consistente y «rellenando» la explicacion de ejemplos, por 
consiguiente, permitiendo hipotesis mas cortas. Estas contribuciones frecuente- 
mente dan como resultado un aprendizaje mas râpido a partir de menos ejemplos. 

• Entender los diferentes rôles lôgicos que juega el conocimiento a priori, expresa- 
dos por restricciones, ayuda a définir una variedad de técnicas de aprendizaje. 

• El aprendizaje basado en explicaciones (EBL) extrae réglas generales a partir 
de ejemplos simples, explicando los ejemplos y generalizando la explicacion. 
Proporciona un método deductivo que convierte los primeras principios de cono¬ 
cimiento en habilidades de propôsito especial utiles y eficientes. 

• El aprendizaje basado en relevancia (RBL) utiliza el conocimiento a priori en 
forma de determinaciones para identificar atributos relevantes, generando un es- 
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pacio de hipotesis reducido y acelerando asf el aprendizaje. El RBL también per- 
mite generalizaciones deductivas a partir de ejemplos simples. 

• El aprendizaje inductivo basado en el conocimiento (KBIL) encuentra hipote¬ 
sis inductivas que explican conjuntos de observaciones con la ayuda de conoci¬ 
miento bâsico. 

• Las técnicas de programaciôn lôgica inductiva (ILP) utilizan KBIL sobre co¬ 
nocimiento expresado en lôgica de primer orden. Los métodos ILP pueden apren- 
der conocimiento relacional que no se puede expresar en los sistemas basados en 
atributos. 

• Se puede llevar a cabo ILP mediante un enfoque de arriba a abajo (top-down) de 
refinamiento de una régla general, o mediante un enfoque de abajo a arriba ( bot- 
tom-up ) de inversion del proceso deductivo. 

• Los métodos ILP generan, de forma natural, nuevos predicados con los que se pue¬ 
den expresar nuevas teorfas de una forma concisa, y son muy prometedores como 
sistemas de formaciôn de teorfas cientfficas de propôsito general. 



VERDEAZUL 


Notas bibliogrâficas e histôricas 

Aunque el uso de conocimiento a priori en al aprendizaje era algo natural para los filô- 
sofos de la ciencia, no se ha realizado mucho trabajo formai sobre ello hasta hace poco. 
Fact, Fiction and Forecast (Hechos, Ficciôn y Predicciôn), del filôsofo Nelson Good¬ 
man (1954), réfuta las suposiciones iniciales de que la inducciôn simplemente se ocu- 
pa de observar suficientes ejemplos de alguna proposiciôn cuantificada universalmente 
para después adoptarla como hipotesis. Considéré, por ejemplo, la hipotesis «Todas las 
esmeraldas son verdeazules», donde verdeazul significa «verde si se observa antes de 
un tiempo t, pero azul si se observa después». En cualquier instante anterior a t, podrfa- 
mos haber observado millones de instancias que confirman la régla de que las esmeral¬ 
das son verdeazules, y ninguna instancia que desconfirme la régla, y aün ser incapaces 
de adoptar la régla. Esto se explica ünicamente por el papel que juega el conocimiento 
a priori relevante en el proceso de inducciôn. Goodman distingue distintos tipos ütiles 
de conocimiento a priori, incluyendo una version de las determinaciones denominada 
sobrehipôtesis. Desafortunadamente, las ideas de Goodman nunca se aplicaron en 
aprendizaje automâtico. 

Las rafces del EBL vienen de las técnicas utilizadas en el planificador STRIPS (Li- 
kes et al. 1972). Cuando se construye un plan, se guarda una version generalizada del 
mismo en una librerfa de planes, que se utiliza en planifieaciones posteriores como ma- 
cro-operador. Ideas similares a ésta apareefan en la arquitectura ACT* de Anderson, 
bajo el tftulo de compilaciôn de conocimiento ( knowledge compilation ) (Anderson, 
1983), y en la arquitectura SOAR, como fragmentaciôn ( chunking ) (Laird et al., 1986). 
La adquisiciôn de esquemas (DeJong, 1981), la generalizaciôn analitica (Mitchell, 
1982) y la generalizaciôn basada en restricciones (Minton, 1984) son consecuencias 
inmediatas del râpido crecimiento del interés en EBL, estimulado por los artfculos de 
Mitchell et al. (1986) y de DeJong y Mooney (1986). El algoritmo de EBL descrito en 
el texto, fue descrito por Hirsh (1987), que mostraba como se podria incorporar direc- 
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tamente en un sistema de programaciôn logica. Van Harmelen y Bundy (1988) explican 
EBL como una variante del método de evaluaciôn parcial que se utiliza en los sistemas 
de anâlisis de programas (Jones et al., 1993.) 

Mas recientemente, los anâlisis rigurosos realizados han conducido a una mejor com- 
prensiôn de los costes potenciales y beneficios del EBL en términos de velocidad en la 
resoluciôn de problemas. Minton (1988) ha mostrado que con un trabajo extra extensi- 
vo, el EBL podria fâcilmente reducir la velocidad de un programa de forma significati- 
va. Tambe et al. (1990) también encontraron un problema similar con el mecanismo de 
fragmentaciôn ( chunking ), y proponian una reducciôn en la potencia expresiva del len- 
guaje de réglas para minimizar el coste de equiparaciôn de las réglas con la memoria de 
trabajo. Este trabajo tiene mucha relaciôn con los resultados que se han obtenido re¬ 
cientemente sobre la complejidad de la inferencia en versiones restringidas de la logica 
de primer orden. (Véase Capitulo 9.) Se puede encontrar un anâlisis probabilistico for¬ 
mai de el coste esperado en EBL en Greiner (1989) y Subramanian y Feldman (1990). 
En Dietterich (1990) hay un estudio excelente. 

En vez de utilizar los ejemplos como punto de partida para la generalizacion, tam¬ 
bién se pueden utilizar directamente para resolver nuevos problemas, mediante un pro- 
ceso conocido como razonamiento analôgico. Esta forma de razonamiento se puede 
llevar a cabo realizando un tipo de razonamiento plausible basado en grados de simila- 
ridad (Gentner, 1983), realizando un tipo de inferencia deductiva basada en determina- 
ciones que utiliza el ejemplo (Davies y Russell, 1987), o realizando un tipo de EBL 
«perezoso» que dirige la generalizacion del ejemplo antiguo para que se adecue a las ne- 
cesidades del nuevo problema. Es comün que esta ültima forma de razonamiento ana¬ 
lôgico se realice en el razonamiento basado en casos ( case-based reasoning ) (Kolodner, 
1993) y en la analogia derivacional (Veloso y Carbonell, 1993). 

La relevancia de la informaciôn en forma de dependencias funcionales fue inicial- 
mente desarrollada en la comunidad de bases de datos, donde se utiliza para estructurar 
conjuntos de atributos grandes en forma de subconjuntos manejables. Las dependencias 
funcionales fueron utilizadas por Carbonell y Collins (1973). Bobrow y Raphaël (1974) 
las dotaron de un aire mâs lôgico. Las dependencias fueron redescubiertas de forma in¬ 
dépendante por Davies y Russell (Davies, 1985; Davies y Russell, 1987), que propor- 
cionaron un anâlisis lôgico completo. Fueron utilizadas para restricciones declarativas 
por Russell y Grosof (1987). Russell (1988) demostrô la equivalencia entre las deter- 
minaciones y un vocabulario restringido del espacio de hipôtesis. El algoritmo FOCUS, 
en Almuallim y Dietterich (1991), fue el primer algoritmo de aprendizaje para determi- 
naciones que mostraba la mejora del rendimiento que se obtiene con RBDTL. En Ta- 
depalli (1993) se describe un algoritmo ingenioso para aprendizaje de determinaciones 
que présenta muchas mejoras en la velocidad del aprendizaje. 

La idea de que el aprendizaje inductivo se puede realizar mediante deducciôn inversa 
se debe a W.S. levons (1874), que escribiô: «El estudio de la Logica Formai y de la Te- 
oria de las Probabilidades me ha llevado a adoptar la opinion de que no hay nada tan di- 
ferente como los métodos de deducciôn e inducciôn, pero la inducciôn es simplemente 
un uso inverso de la deducciôn». Las investigaciones computacionales comenzaron con 
la tesis de Gordon Plotkin (1971) en Edimburgo. Aunque Plotkin desarrollô muchos de 
los teoremas y métodos que hoy en dia se utilizan en ILP, se desanimô a causa de aigu- 
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nos resultados de indecibilidad en ciertos problemas de induccion. MIS (Shapiro, 1981) 
volviô a introducir el problema de aprendizaje de programas lôgicos, pero principalmente 
se considéré como una contribuciôn a la teoria de la depuracion automâtica. Los traba- 
jos en induccion de réglas, como ID3 (Quinlan, 1986) y CN2 (Clark y Noblett, 1989), 
llevaron a FOIL (Quinlan, 1990), que permite, por primera vez, la induccion de réglas 
relacionales. El campo del aprendizaje relacional fue de nuevo impulsado por Muggle- 
ton y Buntine (1988), cuyo programa CiGOL incorporaba una version incompleta de re- 
solucion inversa que era capaz de generar nuevos predicados 5 . Wirth y O’Rorke (1991) 
también trabajaron en la generaciôn de nuevos predicados. El siguiente sistema fue Go- 
lem (Muggleton y Feng, 1990), que utiliza un algoritmo de cubrimiento basado en el 
concepto de Plotkin de generalizaciôn mrnima relativa. Mientras que Foil trabaja de arri- 
ba abajo ( top-down ), CiGOL y Golem lo hacen de abajo a arriba ( botton-up ). Otros sis- 
temas de la misma época son Itou (Rouveirol y Puget, 1989) y Clint (De Raedt, 1992). 
Mas recientemente, ha aparecido Progol (Muggleton, 1995), que utiliza un enfoque hi- 
brido (de arriba abajo y de abajo a arriba) para realizar deducciôn inversa, y que ha sido 
aplicado a varios problemas prâcticos, especialmente de Biologla y procesamiento de 
lenguaje natural. Muggleton (2000) describe una extension de Progol para manejar in- 
certidumbre en forma de programas lôgicos estocâsticos. 

En Muggleton (1991), y en un gran nümero de articulos de Muggleton (1992), se 
puede encontrar un anâlisis formai de los métodos de ILP En el libro de Lavrac y Dze- 
roski (1994) se puede encontrar una colecciôn de técnicas y aplicaciones. Page y Srini- 
vasan (2002) proporcionan una vision general mas reciente de la historia del campo y 
los retos futuros. Los primeras resultados relativos a la complejidad, debidos a Hauss¬ 
ier (1989), sugirieron que aprender sentencias de lôgica de primer orden era muy com- 
plejo. Sin embargo, con un mejor entendimiento de la importancia de los distintos tipos 
de restricciones sobre las clâusulas, se obtuvieron resultados mas positivos, incluso para 
clâusulas con recursividad (Dzeroski et al. 1992). Los resultados sobre la capacidad de 
aprendizaje de ILP fueron estudiados por Kietz y Dzeroski (1994) y Cohen y Page 
(1995). 

Aunque hoy en dia parece que ILP es el enfoque dominante para induccion cons- 
tructiva, no es el ünico. Los denominados sistemas de descubrimiento (discovery 
Systems ) tienen por objetivo la modelizaciôn del proceso que se lleva a cabo para el des¬ 
cubrimiento cienrifico de nuevos conceptos, que normalmente se realiza mediante una 
büsqueda directa en el espacio de las definiciones de conceptos. El Automated Mathe- 
matician, o AM, de Doug Lenat (Davis y Lenat, 1982) utiliza ha heuristicas de descu¬ 
brimiento expresadas como réglas de un sistema experto para guiar su büsqueda de 
conceptos y conjeturas en la teoria elemental de nümeros. Al contrario que la mayorfa 
de los sistemas disenados para razonamiento matemâtico, AM carecla del concepto de 
prueba, y solo podia hacer conjeturas. Redescubriô la conjetura de Goldbach y el teo- 
rema de Factorizacion Unica de Nümeros Primos. La arquitectura de AM fue generali- 
zada en el sistema Eurisko (Lenat, 1983) anadiendo un mecanismo capaz de reescribir 
las heuristicas de descubrimiento propias del sistema, aunque con menos éxito que AM. 


5 El método de resoluciôn inversa también aparece en (Russell, 1986), con un algoritmo simple que se pro- 
porciona en una nota al pie. 




CONOCIMIENTO EN EL APRENDIZAJE 809 


La metodologfa de AM y Eurisko ha sido muy discutida (Ritchie y Hanna, 1984; Le- 
nat y Brown, 1984). 

Otros tipos de sistemas de descubrimiento tienen por objetivo operar con datos cien- 
tificos reales para encontrar nuevas leyes. Los sistemas Dalton, Glauber y Stahl 
(Langley et al., 1987) son sistemas basados en réglas que buscan relaciones cuantitati- 
vas en los datos experimentales de sistemas fïsicos; en cada caso, el sistema ha sido ca- 
paz de resumir un descubrimiento bien conocido de la historia de la ciencia. Los sistemas 
de descubrimiento basados en técnicas probabilisticas (especialmente los algoritmos de 
agrupamiento que descubren nuevas categorias) se discuten en el Capitulo 20. 



EJERCICIOS 

19.1 Demuestre, traduciendo a forma normal conjuntiva y aplicando resolucion, que la 
conclusion a la que se llega en el Apartado 19.4, relativa a los brasilenos, es compléta. 

19.2 Para cada una de las determinaciones siguientes, escriba su representacion lôgi- 
ca y explique por qué la determinaciôn es cierta (si lo es): 

a) El côdigo postal détermina el estado en Estados Unidos. 

b) El diseno y el valor determinan la masa de una moneda. 

c) Para un programa dado, la entrada détermina la salida. 

d) El clima, la ingestion de comida, el ejercicio y el metabolismo determinan la 
ganancia y pérdida de peso. 

e) La calvicie viene determinada por la calvicie (o la falta de la misma) de uno de 
los abuelos maternos. 


19.3 /Séria ütil una version probabibstica de las determinaciones? Sugiera una definicion. 

19.4 Rellene los valores que faltan en las clâusulas C, o C 2 (o ambas) en los siguien¬ 
tes conjuntos de clâusulas, dado que C es el resolvente de C, y C 2 : 

a) C = Verdadero => P(A, B), C, = P(x, y) => Q(x, y), C 2 = ?? 

b) C = Verdadero =* P(A, B), C 1 = ??, C, = ?? 

c) C = P(x, y) => P(x, j{y)), C ! - ??, C 2 = ?? 

Si existiera mas de una solucion posible, proporcione un ejemplo de cada tipo. 

19.5 Suponga que alguien escribe un programa lôgico que lleva a cabo un paso de re- 
soluciôn, que es: Resolver(c v c 2 , c ) es cierto si c es el resultado de aplicar resolucion a 
Cj y a q. Normalmente Resolver se utilizarâ como parte de un demostrador de teoremas, 
haciendo llamadas con c, y c 2 instanciadas a clâusulas particulares, y generando asi el 
resolvente c. Ahora suponga que llamamos a. Resolver con c instanciada, y c, y c 2 libres. 
/Tendrâ éxito esta llamada en la generaciôn de los resultados apropiados de un paso de 
resolucion inversa? / Necesitanamos realizar modificaciones especiales en un sistema de 
programaciôn logica para que esto funcionara? 

19.6 Suponga que Foil estâ considerando anadir un literal a una clâusula, utilizando 
un predicado P, y que los literales previos (incluyendo la cabeza de la clâusula) contie- 
nen cinco variables diferentes. 





810 INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


à) /C liant os literales funcionalmente diferentes pueden ser generados? Dos literales 
son funcionalmente idénticos si difieren ünicamente en los nombres de las va¬ 
riables nuevas que contienen. 

b ) / Podrfa encontrar una formula general para el numéro de literales diferentes con 
un predicado de aridad r, cuando se han utilizado previamente n variables? 

c) / ; Por qué Foil no permite literales que contienen variables que previamente no 
se han utilizado? 

19.7 Utilizando los datos del ârbol genealôgico de la Figura 19.11, o un subconjunto 
de él, aplique el algoritmo Foil para aprender una definicion del predicado Antecesor. 



Métodos estadisticos 
de aprendizaje 


En este capitulo presentamos el aprendizaje como una forma de razonamiento 
con incertidumbre a partir de observaciones 


En la Parte V mencionamos el predominio de la incertidumbre en los entomos reales. 
Los agentes pueden tratar con la incertidumbre utilizando métodos que hagan uso de pro- 
babilidades y de la teoria de la decision, pero primero, deben aprender sus teorfas pro- 
babilisticas sobre el mundo a partir de la experiencia. Este capitulo explica cômo pueden 
hacer esto. Veremos cômo formular la propia tarea de aprendizaje como un proceso de 
inferencia probabilistica (Apartado 20.1). También veremos que una vision bayesiana 
del aprendizaje es extremadamente potente, ya que proporciona soluciones generales a 
los problemas de ruido, sobreajuste y predicciôn ôptima. También tiene en cuenta el he- 
cho de que un agente poco omnisciente nunca estarâ seguro sobre qué teoria del mun¬ 
do es correcta, aunque deba tomar decisiones basândose en alguna teoria del mundo. 

Se describen métodos para el aprendizaje de modelos probabilisticos (principalmen- 
te redes bayesianas) en los Apartados 20.2 y 20.3. El Apartado 20.4 incluye métodos de 
aprendizaje que almacenan y recuperan instancias especificas. El Apartado 20.5 esta de- 
dicado a las redes neuronales y el Apartado 20.6 introduce las mâquinas nücleo. Este ca¬ 
pitulo incluye material que es bastante matemâtico (para su completo entendimiento es 
necesario conocer las bases del câlculo multivariante), aunque las lecciones generales se 
pueden entender sin entrar en detalles. En este punto, puede ser beneficioso para el lec- 
tor revisar el material de los capitulos 13, 14, y la base matemâtica del Apéndice A. 

20.1 Aprendizaje estadistico 


Los conceptos clave de este capitulo son los datos y las hipôtesis, como en el Capitulo 
18. Aqui, los datos son evidencias, es decir, instanciaciones de todas o algunas de las 
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variables aleatorias que describen el dominio. Las hipotesis son teorias probabilisticas 
sobre cômo funciona el dominio, incluyendo teorias lôgicas como caso especial. 

Consideremos un ejemplo muy simple. Nuestros caramelos sorpresa favoritos son 
de dos sabores: cereza (juhmm!) y lima (jughh!). El fabricante de los caramelos tiene 
un sentido del humor muy peculiar, y envuelve los caramelos en un envoltorio opaco en 
el que no se indica el sabor. Los caramelos se introducen en grandes boisas, que son de 
cinco tipos, otra vez indistinguibles desde fuera: 

h{. 100% cereza 
h 2 : 75% cereza + 25% lima 
hÿ 50% cereza + 50% lima 
h y. 25% cereza + 75% lima 
h 5 : 100% lima 

Dada una nueva boisa, la variable aleatoria H (para las hipotesis) dénota el tipo de boi¬ 
sa, asi que puede tomar valores desde /;, hasta h 5 . Por supuesto, H no es directamente 
observable. Cuando se abren e inspeccionan los caramelos, se revelan los datos D v D 2 , 
..., D n , donde cada D I es una variable aleatoria con valores posibles cereza y lima. La ta- 
rea bâsica a la que se enfrenta el agente es predecir el sabor del siguiente caramelo 1 . A 
pesar de que aparentemente parece trivial, este escenario sirve para introducir muchos 
de los aspectos principales. Realmente, el agente necesita inferir una teoria de su mun- 
do, aunque sea muy simple. 

El aprendizaje bayesiano simplemente calcula la probabilidad de cada hipotesis da- 
dos los datos, y realiza predicciones sobre estas bases. Es decir, se realizan las predic- 
ciones utilizando todas las hipotesis, ponderadas por sus probabilidades, y no utilizando 
ünicamente la «mejor» hipotesis. De esta forma, el aprendizaje se reduce a inferencia 
probabilistica. Si D représenta todos los datos, y d el valor observado; la probabilidad 
de cada hipotesis se obtiene aplicando la régla de Bayes: 

P(h 1 \d) = aP(d\h i )P(h i ) (20.1) 

Ahora, suponga que queremos hacer una predicciôn sobre una cantidad desconocida X. 
Tenemos 

P(X|d) = 2 P(X|d, h,yp(h,\û) = 2 ’P(X\h i )P(h l \d) ( 20 . 2 ) 

i i 

donde se ha asumido que cada hipotesis détermina una distribuciôn de probabilidades 
sobre X. Esta ecuaciôn muestra que las predicciones son el resultado de ponderar las pre¬ 
dicciones de las hipotesis individuales. Las hipotesis son en si mismas «intermediarios» 
entre los datos crudos y las predicciones. Las cantidades clave en el enfoque bayesiano 
son las hipotesis a priori, P(hi) y la verosimilitud de los datos dada cada una de las hi- 
pôtesis, P(d\hl). 

En el ejemplo de los caramelos por el momento asumiremos, como informaciôn pro- 
porcionada por el fabricante, que la distribuciôn a priori sobre h v ..., h 5 viene dada por 


1 Los lectores estadisticamente sofîsticados reconocerân este escenario como una variante de la urna y las 
bolas. Consideramos este caso menos restringido que el de los caramelos; ademâs el caso de los caramelos 
se presta a otras tareas, como decidir si cambial' la boisa con un arnigo. 
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<0,1, 0,2, 0,4, 0,2, 0,1>. La verosimilitud de los datos se calcula asumiendo que las ob- 
servaciones son i.i.d. (es decir, independientes e idénticamente distribuidas) asi que 

P(d\h,) = UPidJih,) (20.3) 

j 

Por ejemplo, suponga que la boisa es una de las que contiene solo caramelos de lima (h 5 ), 
y los primeras 10 caramelos son todos de lima; en este caso, P(d | /;,) es 0,5 10 , porque 
la mitad de los caramelos de una boisa h 3 son de lima 2 . La Figura 20.1 (a) muestra cômo 
cambian las probabilidades a posteriori de las cinco hipotesis a medida que se van ob- 
servando los 10 caramelos de lima. Nôtese que las probabilidades comienzan con sus 
valores a priori, por lo que h 3 es inicialmente mas probable que las demâs, incluso des- 
pués de que se desenvuelva el primer caramelo. Después de desenvolver dos caramelos 
de lima, h A es la mas probable; después de très o mas, h 5 (la terrorifica boisa con todos 
los caramelos de lima) es la mas probable. Después de 10, estamos bastante seguros de 
nuestro destino. La Figura 20.1 (b) muestra la predicciôn de la probabilidad de que el si- 
guiente caramelo sea de lima, basada en la Ecuacion (20.2). Como se podia esperar, se 
incrementa de forma monôtona hacia 1. 

El ejemplo muestra que, a la larga, la verdadera hipotesis domina la predicciôn ba- 
yesiana. Esto es caracteristico del aprendizaje Bayesiano. Para cualquier a priori fija que 
no excluya la hipotesis verdadera, la probabilidad a posteriori de cualquier hipotesis fal- 
sa finalmente desaparecerâ, simplemente porque la probabilidad de generar datos «no 
caracteristicos» de forma indefinida es cada vez mas pequena. (Esta apreciaciôn es anâ- 
loga a una realizada en la explicaciôn del PAC-aprendizaje en el Capitulo 18.) Mas im¬ 
portante, la predicciôn bayesiana es ôptima, tanto si el conjunto de datos es pequeno, 




(a) (b) 


Figura 20.1 (a) Probabilidades a posteriori P(h\d v ..., d N ) calculadas a partir de la Ecuacion (20.1). 

El numéro de observaciones N va de 1 a 10, y cada observaciôn es una observaciôn de un carame¬ 
lo de lima, (b) Predicciôn bayesiana P(d N+l = lima\d v ..., d N ) a partir de la Ecuacion (20.2). 


2 Ya mencionamos antes que las boisas de caramelos son muy grandes; en otro caso no se cumpliria la asun- 
ciôn de i.i.d. Técnicamente, es mâs correcto (pero menos higiénico) volver a envolver cada caramelo des¬ 
pués de inspeccionarlo y devolverlo a la boisa. 
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como si es grande. Dada la hipotesis a priori, cualquier otra prediccion sera correcta con 
menos frecuencia. 

Por supuesto, la optimalidad del aprendizaje Bayesiano tiene un precio. En los pro- 
blemas reales de aprendizaje, el espacio de hipotesis es normalmente muy grande o in- 
finito, como vimos en el Capitulo 18. En algunos casos, el câlculo del sumatorio de la 
Ecuaciôn (20.2) (o la integraciôn en el caso continuo) es tratable, pero en la mayoria de 
los casos debemos recurrir a métodos aproximados o simplificados. 

Una aproximaciôn muy comün, que se adopta normalmente en la ciencia, es hacer 
predicciones basadas en una ünica hipotesis, la mâs probable, es decir, una h i que ma- 
ximice P(h i |d). Frecuentemente, esto se denomina mâximo a posteriori o hipotesis MAP. 
Las predicciones que se realizan de acuerdo a una hipotesis MAP, /; MAP , son aproxima- 
damente bayesianas, hasta el punto de que P(X|d) ~ P(A|/î map ). En nuestro ejemplo de 
los caramelos, /? MAP = h 5 después de très caramelos de lima, por lo tanto el aprendizaje 
MAP predice que el cuarto caramelo sera de lima con probabilidad 1,0 (una prediccion 
mucho mâs peligrosa que la prediccion bayesiana de 0,8 que se muestra en la Figura 20.1). 
A medida que llegan mâs datos, la prediccion MAP y la bayesiana se van acercando, por- 
que las competidoras con la hipotesis MAP se van haciendo menos y menos probables. 
Aunque nuestro ejemplo no muestra esto, encontrar la hipotesis MAP es normalmente 
mâs sencillo que el aprendizaje Bayesiano, porque requiere resolver un problema de op- 
timizaciôn en vez de un gran sumatorio (o integraciôn). Veremos ejemplos de esto ülti- 
mo en este capitulo. 

Tanto en el aprendizaje Bayesiano como en el aprendizaje MAP, la hipotesis a prio¬ 
ri P(/7 i ) tiene un papel importante. En el Capitulo 18, vimos que puede ocurrir sobre- 
ajuste cuando el espacio de hipotesis es muy expresivo, y por lo tanto, contiene muchas 
hipotesis que se ajustan bien al conjunto de datos. Mâs que imponer un limite arbitrario 
al espacio de hipotesis, los métodos de aprendizaje Bayesiano y MAP utilizan la distri- 
buciôn a priori para penalizar la complejidad. Tipicamente, las hipotesis mâs comple- 
jas tienen una probabilidad a priori mâs pequena, en parte porque normalmente hay 
muchas mâs hipotesis complejas que simples. Por otro lado, las hipotesis mâs comple- 
jas tienen mâs capacidad para ajustarse a los datos. (En el caso extremo, una tabla de 
büsqueda puede reproducir exactamente los datos con probabilidad 1.) Por lo tanto, la 
hipotesis a priori expresa un compromiso entre la complejidad de una hipotesis y su gra- 
do de ajuste con los datos. 

Podemos observar el efecto de este compromiso mâs claramente en el caso lôgico, 
donde H contiene solo hipotesis determimsticas. En este caso, P(d\hi) es 1 si h i es con- 
sistente y 0 en otro caso. Observando la Ecuaciôn (20.1), se puede ver que h MAP serâ la 
teorîa lôgica mâs simple consistente con los datos. Por lo tanto, el aprendizaje mâximo 
a posteriori incluye de forma natural la navaja de Ockham. 

Otra idea, relativa al compromiso entre complejidad y grado de ajuste proviene del 
algoritmo de la Ecuaciôn (20.1). Elegir h MAP para maximizar P(d h) P(hj) es équivalente 
a minimizar 


-I0g 2 P(d|/7,) - log 2 P(h t ) 

Utilizando la conexiôn entre la codificaciôn de la informaciôn y la probabilidad, que se 
introdujo en el Capitulo 18, se puede ver que el término — log 2 P (h) es igual al nümero 
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de bits que se requieren para especificar Ademâs, — log 2 P(d|/ 2 ,), es el numéro de bits 
adicionales que se requieren para especificar los datos, dada la hipôtesis. (Para ver esto 
considéré que no se necesitan bits si la hipôtesis predice exactamente los datos —como 
con h 5 y la tira de caramelos de lima— y log 2 1 = 0). Asl, el aprendizaje MAP elige la 
hipôtesis que proporciona una compresiôn mâxima de los datos. La misma tarea se re- 
suelve directamente por el método de aprendizaje de nimima longitud de description, 
o MDL, que en lugar de trabajar con probabilidades, intenta minimizar el tamano de las 
codificaciones de las hipôtesis y de los datos. 

Se obtiene una simplificaciôn mas si se asume una distribuciôn uniforme a priori so¬ 
bre el espacio de hipôtesis. En este caso, el aprendizaje MAP se reduce a elegir una h i 
que maximice P(d|// ; ). Esta hipôtesis se denomina hipôtesis de mâxima verosimilitud 
(ML), El aprendizaje de mâxima verosimilitud es muy comün en estadistica, una dis¬ 
ciplina en la que muchos investigadores desconfîan de la naturaleza subjetiva de las hi¬ 
pôtesis a priori. Es un enfoque razonable cuando a priori no hay razôn para preferir una 
hipôtesis sobre otra, por ejemplo, cuando todas las hipôtesis son igual de complejas. Pro¬ 
porciona una buena aproximaciôn al aprendizaje Bayesiano y MAP cuando el conjunto 
de datos es muy grande, porque los datos imperan sobre la distribuciôn a priori de la hi¬ 
pôtesis, pero présenta problemas (como veremos) con conjuntos de datos pequenos. 


20.2 Aprendizaje con datos completos 


APRENDIZAJE DE 
PARÂMETROS 

DATOS COMPLETOS 


Nuestro desarrollo de métodos de aprendizaje estadisticos comienza con la tarea mas sen- 
cilla: aprendizaje de parâmetros con datos completos. Una tarea de aprendizaje de 
parâmetros supone encontrar los parâmetros numéricos para un modelo probabilistico 
cuya estructura estâ fijada. Por ejemplo, podrfamos estar interesados en aprender las pro¬ 
babilidades condicionales de una red bayesiana con una estructura dada. Los datos son 
completos cuando incluyen valores para cada variable del modelo de probabilidad que 
estâ siendo aprendido. Los datos completos simplifican en gran medida el problema de 
aprendizaje de parâmetros de un modelo complejo. También veremos brevemente el pro¬ 
blema de aprendizaje de la estructura. 


Aprendizaje del parâmetro de mâxima verosimilitud: 
modelos discretos 

Suponga que compramos una boisa de caramelos de lima y cereza en una nueva fâbri- 
ca cuyas proporciones de lima y cereza son completamente desconocidas, es decir, la 
fracciôn puede ser cualquier valor entre 0 y 1. En este caso, tenemos una hipôtesis con¬ 
tinua. El parâmetro en este caso, que llamaremos 6, es la proporciôn de caramelos de 
cereza, y la hipôtesis es h e . (La proporciôn de caramelos de lima es exactamente 1-6.) 
Si asumimos que a priori todas las proporciones son igual de probables, el enfoque de 
mâxima verosimilitud es razonable. Si modelizamos la situaciôn con una red bayesia¬ 
na, necesitamos exactamente una variable aleatoria, Sabor (el sabor de un caramelo ele- 
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gido aleatoriamente de la boisa), que tiene valores cereza y lima, donde la probabilidad 
de cereza es 6 ( véase Figura 20.2(a)). Ahora suponga que desenvolvemos N caramelos, 
de los cuales c son de cereza y €=N~c son de lima. De acuerdo con la ecuaciôn (20.3), 
la verosimilitud de este conjunto de datos particular es 

p(d\h g ) = UP(dj\h e ) = e c -(i-ey 

7=1 

La hipotesis de mâxima verosimilitud viene dada por el valor 6 que maximiza esta ex- 
presiôn. El mismo valor se obtiene maximizando el logaritmo de la verosimilitud 

N 

L(d\h g ) = log P(d\h g ) = 2 log P(d'\h 0 ) = c \ogd + i log(l - d) 

7=1 

(Tomando logaritmos, reducimos el producto a una suma sobre los datos, que normal- 
mente es mas fâcil de maximizar.) Para encontrar el valor de mâxima verosimilitud de 
d, derivamos L respecto a 8 e igualamos a cero la expresiôn que résulta: 

dL(d\h„) ci c c 

de d 1-0 c + i n 

Por lo tanto, la hipotesis de mâxima verosimilitud h ML , jafirma que la proporciôn actual 
de caramelos de cereza en la boisa es igual a la proporciôn observada de caramelos de- 
senvueltos! 

Parece que hemos hecho mucho trabajo para descubrir lo obvio. Aunque de hecho, 
hemos aplicado un método estândar de aprendizaje de parâmetros de mâxima verosi¬ 
militud: 

1. Expresar la verosimilitud de los datos como una funciôn de los parâmetros. 

2. Derivar el logaritmo de la verosimilitud respecto a cada parâmetro. 

3. Encontrar los valores de los parâmetros que hacen las derivadas iguales a cero. 
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Normalmente, el paso mas complicado es el ültimo. En nuestro ejemplo era trivial, pero 
veremos que en muchos casos necesitamos recurrir a algoritmos iterativos u otras téc- 
nicas de optimizacion numérica, como se describfa en el Capitulo 14. El ejemplo tam- 
bién ilustra un problema significativo que en general se présenta con el aprendizaje de 
mâxima verosimilitud: cuando el conjunto de datos es tan pequeno que algunos even¬ 
tas no se han observado (por ejemplo, sin caramelos de cereza) la hipôtesis de mâxi¬ 
ma verosimilitud asigna probabilidad cero a esos eventos. Para evitar este problema se 
han utilizado varios trucos, como inicializar los recuentos de cada evento a 1 en lugar 
de a cero. 

Veamos otro ejemplo. Suponga que este nuevo fabricante de caramelos quiere dar 
una pista al consumidor y utiliza caramelos cuyos envoltorios son rojos y verdes. El En- 
voltorio para cada caramelo se selecciona de forma probabilistica, de acuerdo a alguna 
distribuciôn condicional desconocida, dependiendo del sabor. El modelo de probabili¬ 
dad correspondiente se muestra en la Figura 20.2(b). Observe que tiene très parâmetros: 
0, 0 X , y 0 2 . Con estos parâmetros, la verosimilitud de que haya un caramelo de cereza en 
un envoltorio verde se puede obtener a partir de la semântica estândar de las redes ba- 
yesianas (Apartado 14.2): 

P(Sabor = cereza, Envoltorio = verde\h 0 e g ) 

— P{Sabor — cereza\h gg 0 _)P(Envoltorio — verde\Sabor — cereza, h gg g ) 

= 0-(i-0i) 

Ahora, desenvolvemos N caramelos, de los cuales c son de cereza y / de lima. Los re¬ 
cuentos de envoltorios son los siguientes: r c de los caramelos de cereza tienen envolto¬ 
rio rojo y g c tienen envoltorio verde, mientras que r l de los de lima tienen envoltorio rojo 
y g, lo tienen verde. La verosimilitud de los datos viene dada por: 

p(d|/ w j = e c {\ - ey-eu i - 0,) & -02(i - e 2 y 

Esto parece bastante horrible, pero tomar logaritmos ayuda: 

L = [c log 0 + f log(l — 0)] + \r c log 0! +g c log(l — 0j )] + [/> log 0 2 + g t log(l-0 2 )] 

El beneficio que se obtiene tomando logaritmos es claro: el logaritmo de la verosimili¬ 
tud es la suma de los très términos, cada uno de los cuales contiene un parâmetro simple. 
Si hacemos las derivadas respecto a cada parâmetro y las fijamos a cero, obtendremos très 
ecuaciones independientes, cada una de las cuales contiene exactamente un parâmetro: 


dL c l c 


d0 

0 

1-0 

= 0 

=> 

0 -- 

C + / 

dL 

r c 

8c 

— n 


0i 

r c 


01 

l-0i 

u 


r c + 8c 

dL 

’i Si 

— n 


02 

r i 

d0 2 

0 2 

1-02 

u 


n + 8i 


La solucion para 0 es la misma de antes. La soluciôn para 0 V la probabilidad de que un 
caramelo de cereza tenga un envoltorio rojo, es la fracciôn observada de caramelos de 
cereza con envoltorios rojos, y para 0 2 de forma similar. 








818 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 



Estos resultados son muy réconfortantes, y es muy fâcil ver que pueden ser exten- 
didos a cualquier red bayesiana cuyas probabilidades condicionales vengan representa- 
das por tablas. El punto mas importante es que, con datos completos, el problème/ de 
aprendizaje de parâmetros por mâxima verosimilitud para una red bayesiana se des- 
compone en problemas de aprendizaje separados para cada uno de los parâmetros 3 . El 
segundo punto es que los valores de los parâmetros para una variable, dados su padres, 
son exactamente las frecuencias observadas de los valores de la variable para cada com- 
binacion de valores de los padres. Como antes, debemos tener cuidado para evitar ce- 
ros cuando el conjunto de datos es pequeno. 



Modelos de Bayes simples (Naive Bayes) 

Probablemente el modelo de red bayesiana que mas comünmente se ha utilizado en apren¬ 
dizaje automâtico es el modelo de Bayes simple. En este modelo, la variable «clase» C 
(que se va a predecir) es la raiz y las variables «atributo» X j son las hojas. El modelo es 
simple o «ingenuo» porque asume que los atributos son condicionalmente indépendan¬ 
tes entre si, dada la clase. (El modelo de la Figura 20.2(b) es un modelo de Bayes ingenuo 
con exactamente un atributo.) Asumiendo variables Booleanas, los parâmetros son 

6 = P(C = verdadero), 6 n — P(X j — verdadero\C — verdadero), d j2 — 

= P(X i = verdadero\C — falso) 

Los valores de los parâmetros de mâxima verosimilitud se encuentran exactamente de 
la misma forma que para la Figura 20.2(b). Una vez que el modelo ha sido entrenado de 
esta forma, puede ser utilizado para clasificar nuevos ejemplos para los cuales la varia¬ 
ble clase C no se ha observado. Con los valores de atributo observados x v ..., x n , la pro- 
babilidad para cada clase viene dada por 

P(C|x 1 ,...,x„) = aP(C)nP(*,|C) 

i 

Se puede obtener una predicciôn deterministica, eligiendo la clase mâs probable. La Fi¬ 
gura 20.3 muestra la curva de aprendizaje para este método cuando se aplica al proble- 
ma del restaurante del Capitulo 18. El método aprende bastante bien, pero no tan bien 
como el aprendizaje con ârboles de decision; presumiblemente, esto ocurre porque la hi- 
pôtesis verdadera (que es un ârbol de decision) no se puede representar exactamente uti- 
lizando un modelo de Bayes simple. El aprendizaje de Bayes simple funciona 
sorprendentemente bien en una gran variedad de aplicaciones; la version potenciada (bo- 
osted) (Ejercicio 20.5) es uno de los algoritmos de aprendizaje de proposito general mâs 
efectivos. Funciona bien con problemas muy grandes: con n atributos Booleanos, hay 
exactamente 2 n + 1 parâmetros, y no se requiere bûsqueda para encontrar h ML , la lii- 
pôtesis de mâxima verosimilitud de Bayes simple. Finalmente, el aprendizaje de Bayes 
simple no présenta dificultades con datos con ruido y puede proporcionar predicciones 
probabilisticas cuando sea apropiado. 


3 Véase el Ejercicio 20.7 para el caso no tabulado, donde cada paramètre afecta a varias probabilidades con¬ 
dicionales. 
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Figura 20.3 La curva de aprendizaje para el aprendizaje de Bayes simple aplicado al problema 
del restaurante del Capitulo 18; la curva de aprendizaje para el aprendizaje con ârboles de decision 
se muestra para hacer la comparacion. 


Aprendizaje de parâmetros de mâxima verosimilitud: 
modelos continuos 

Los modelos probabilisticos continuos, como el modelo lineal-Gaussiano, fueron in- 
troducidos en el Apartado 14.3. Es importante saber cômo se aprenden modelos conti¬ 
nuos a partir de los datos, ya que las variables continuas siempre estân présentes en las 
aplicaciones reales. Los principios para el aprendizaje de mâxima verosimilitud son idén- 
ticos a los del caso discreto. 

Empecemos con un caso sencillo: el aprendizaje de parâmetros de una funcion de 
densidad gaussiana sobre una variable simple. Esto es, los datos son generados como si¬ 
gne: 


e 


1 


P( x ) — pi — 

VZ77CT 


Los parâmetros de este modelo son la media /jl y la desviacion estândar a. (Observe que 
la «constante» de normalizacion dépende de cr, por lo que la podemos ignorar.) Sean 
x v ..., x N los valores observados. El logaritmo de la verosimilitud es 


E = Elog^r=— e 2a2 = 

j =1 VZ77(T 


N ] U-“)' 



Fijando las derivadas a cero, como es usual, obtenemos 



dL 1 





(20.4) 
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Es decir, el valor de mâxima verosimilitud de la media es la media de la muestra y el 
valor de mâxima verosimilitud de la desviacion estândar es la raiz cuadrada de la varianza 
de la muestra. Otra vez, estos son resultados réconfortantes que confirman la prâctica 
del «sentido comün». 

Ahora considéré un modelo Gaussiano lineal con un padre continuo X y un hijo con- 
tinuo Y. Como se explicô en el Apartado 14.3, Y tiene una distribuciôn gaussiana cuya 
media dépende linealmente del valor de X, y cuya desviacion estândar es fija. Para 
aprender la distribuciôn condicional P(F|X), podemos maximizar la verosimilitud con- 
dicional 

| (y-(8 1 j+9 2 )) 2 

P{y\x) = n ^e~ ^ (20.5) 

VZ7rcr 

Aqui, los parâmetros son 8 V 6 2 y a. Los datos son una colecciôn de pares (je, y ; ), como 
se ilustra en la Figura 20.4. Utilizando los métodos habituales (Ejercicio 20.6), pode¬ 
mos encontrar los valores de mâxima verosimilitud de los parâmetros. Aqui, hay que ha- 
cer una distinciôn. Si consideramos exactamente los parâmetros 0 V d 2 que definen las 
relaciones lineales entre x e y, estâ claro que maximizar el logaritmo de la verosimili¬ 
tud respecto a estos parâmetros es lo mismo que minimizar el numerador en el exponente 
de la Ecuaciôn (20.5): 

N 

E = 2(y y -(0!*; +0,)) 2 
j =1 

La cantidad (y. — (0jjc. + d 2 )) es el error para (je-, y) (que es la diferencia entre el valor 
actual v y el valor predicho (8 pt + 0 2 )') por lo tanto, E es la tan conocida suma de los 
errores cuadrados. Esta es la cantidad que se minimiza por el procedimiento de re- 
gresiôn lineal estândar. Ahora podemos entender por qué: minimizar la suma de los erro¬ 
res cuadrados proporciona el modelo de linea recta de mâxima verosimilitud, cuando 
los datos han sido generados con ruido Gaussiano de varianza fija. 



0,8 

0,2°’ 4 °’ y 


(a) 



0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 

x 

(b) 


Figura 20.4 (a) Un modelo lineal Gaussiano descrito como y = Oyc + 0 2 mas el ruido Gaussiano 

con varianza fija. (b) Un conjunto de 50 puntos generados a partir de este modelo. 
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Aprendizaje de parâmetros Bayesiano 

El aprendizaje de mâxima verosimilitud da lugar a procedimientos muy simples, pero 
présenta deficiencias sérias con conjuntos de datos pequenos. Por ejemplo, después de 
ver un caramelo de cereza, la hipotesis de mâxima verosimilitud es que la boisa es de 
100 por cien de caramelos de cereza (es decir, 6 = 1,0). A menos que una hipotesis a 
priori sea que las boisas deben contener todos los caramelos de cereza o todos de lima, 
ésta no es una conclusion razonable. El enfoque Bayesiano para el aprendizaje de parâ¬ 
metros sitüa una hipotesis a priori sobre los valores posibles de los parâmetros y actua- 
liza esta distribucion a medida que los datos van llegando. 

El ejemplo de los caramelos de la Figura 20.2(a) tiene un paramétra 6: la probabi- 
lidad de que un caramelo seleccionado aleatoriamente sea de sabor cereza. Desde el pun- 
to de vista Bayesiano, 6 es el valor (desconocido) de una variable aleatoria 0; la hipotesis 
a priori es exactamente la distribucion a priori P(0). Asf, P(Q = 6) es la probabilidad de 
que la boisa tenga una fraccion 8 de caramelos de cereza. 

Si el parâmetro 8 puede ser cualquier valor entre 0 y 1, P(0) debe ser una distribu- 
ciôn continua que es distinta de cero solo entre 0 y 1, y cuya intégral es 1. La densidad 
uniforme P(6) = U[0,1 }(8) es una candidata. ( Véase Capitulo 13). Résulta que la densi¬ 
dad uniforme es un miembro de la familia de distribuciones beta. Cada distribucion beta 
se define mediante dos hiperparâmetros 4 a y b tal que 

beta [a, b](8) = a8 a ~\ 1 ~ 0) ft_1 (20.6) 

para 8 en el rango [0,1], La constante de normalizacion a dépende de o y b. ( Véase Ejer- 
cicio 20.8). La Figura 20.5 muestra qué aspecto tiene la distribucion para varios valores 
de a y b. La media de la distribucion es a / (a + b), por lo tanto, valores grandes de a su- 
gieren la creencia de que 0 estâ mâs cercana a 1 que a 0. Valores grandes de a + b ha- 




Parâmetro 0 


Parâmetro 0 


(a) 


(b) 


Figura 20.5 Ejemplos de la distribucion betaffl, b] para valores diferentes de [fl, b]. 


4 Se llaman hiperparâmetros porque parametrizan una distribucion sobre 6, que es por si misma un parâmetro. 
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cen la distribucion mas puntiaguda, insinuando mayor certeza sobre el valor de 0. Asi, 
la familia beta proporciona un rango ütil de posibilidades para la hipôtesis a priori. 

Ademâs de su flexibilidad, la familia beta tiene otra propiedad maravillosa: si 0 si- 
gue a priori una beta \a,b\, después de que un punto de los datos sea observado, la dis¬ 
tribucion a posteriori para 0 es también una distribucion beta. Se dice que la familia beta 
es la conjugada a priori para la familia de distribuciones para una variable booleana 5 . 
Veamos como funciona esto. Suponga que observamos un caramelo de cereza; entonces 

P{8\D X = cereza ) = aP(D l = cereza\8)P(8) 

= a'8 ■ beta[fl, b](8) = a'8 ■ 8 a ~\\ - 8) h ~ J 
= a'e a { 1 - 6) h ~ I = beta [a + 1, b](8) 

Asi, después de observar un caramelo de cereza, simplemente incrementamos el para¬ 
métra a para obtener la distribucion a posteriori; de forma similar, después de observar 
un caramelo de lima, incrementamos el paramétra b. De esta forma, podemos ver los hi- 
perparâmetros a y b como contadores virtuales, en el sentido de que una beta [a,b\ a 
priori, viendo a — 1 como los caramelos de cereza actuales y b — 1 como los caramelos 
de lima actuales, se comporta exactamente como si hubiéramos empezado con una uni¬ 
forme a priori, beta[l, 1], 

Examinando la secuencia de distribuciones beta para incrementar los valores de a y 
b, manteniendo las proporciones fijas, podemos ver como la distribucion a posteriori so¬ 
bre el paramétra 0 varia a medida que llegan los datos. Por ejemplo, suponga que la boi¬ 
sa de caramelos actual es del tipo 75 por ciento de cereza. La Figura 20.5(b) muestra la 
secuencia beta[3,l], beta[6,2], beta[30,10]. Claramente, la distribucion converge a un pico 
estrecho alrededor del valor verdadero de 0. Para grandes conjuntos de datos, el apren- 
dizaje Bayesiano (al menos en este caso) tiende a proporcionar los mismos resultados 
que el aprendizaje de mâxima verosimilitud. 

La red de la Figura 20.2(b) tiene très paramétras 8, 6 l y 0 2 , donde d, es la probabi- 
lidad de que un envoltorio rojo cubra un caramelo de cereza y d 2 es la probabilidad de 
que un envoltorio rojo cubra un caramelo de lima. La hipôtesis bayesiana a priori debe 
cubrir los très paramétras, es decir, necesitamos especificar P(0, 0,, 0 2 ). Normalmen- 
te asumiremos independencia de paramétras: 

P(0, 0 1 ,0 2 ) = P(0)P(0 1 )P(0 2 ) 

Con esta suposiciôn, cada paramétra puede tener su propia distribucion beta que se ac- 
tualiza de forma separada a medida que llegan los datos. 

Una vez que tenemos la idea de que los paramétras desconocidos se pueden repre- 
sentar con variables aleatorias como 0, es natural incorporarlos en la propia red baye¬ 
siana. Para hacer esto, necesitamos también hacer copias de las variables que describen 
cada instancia. Por ejemplo, si hemos observado très caramelos, necesitamos Saboi\, Sa- 
bor 2 , Sabor 3 , y Envoltorio 1; Envoltorio 2 , Envoltorio 3 . El paramétra variable 0 détermi¬ 
na la probabilidad de cada variable Sabor 

P {Sabor t = cereza\Q = 8) = 8 


5 Otras conjugadas a priori son la familia Dirichlet para los paramétras de una distribucion multivaluada y la 
familia Normal-Wishart para los paramétras de una distribucion gaussiana. Véase Bemardo y Smith (1994). 
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De forma similar, las probabilidades de los envoltorios dependen de 0j y Q 1 , por ejemplo, 
P (Envoltorio i = rojo\Sabor i = 0, = 0,) = 0 

Ahora, el proceso de aprendizaje bayesiano completo se puede formular como un pro- 
blema de inferencia en una red de Bayes construida de forma adecuada, como se mues- 
tra en la Figura 20.6. La predicciôn de una nueva instancia se realiza simplemente 
anadiendo nuevas variables instancia a la red, algunas de las cuales se consultan. Esta 
formulaciôn del aprendizaje y la predicciôn déjà claro que el aprendizaje Bayesiano no 
requiere «principios de aprendizaje» extra. Ademâs, hay, en esencia, solo un algoritmo 
de aprendizaje, el algoritmo de inferencia de redes bayesianas. 


Aprendizaje de la estructura de las redes bayesianas 

Hasta ahora hemos asumido que la estructura de la red de Bayes viene dada y hemos 
tratado de aprender los paramétras. La estructura de la red représenta conocimiento cau¬ 
sal bâsico sobre el dominio, que frecuentemente résulta sencillo para un experto, o in- 
cluso para un simple usuario. Sin embargo, en algunos casos el modelo causal puede no 
estar disponible o ser objeto de controversias (por ejemplo, algunas sociedades han rei- 
vindicado en muchas ocasiones que fumar no causa cancer) por lo tanto, es importante 
entender como se puede aprender una estructura de Bayes a partir de los datos. Hoy en 
dia, los algoritmos de aprendizaje de la estructura estân todavia en su infancia, por lo 
que mostraremos solamente un breve esquema de las ideas principales. 



Figura 20.6 Una red bayesiana que corresponde a un proceso de aprendizaje. Las distribuciones 
a posteriori para las variables paramétra 0, 0j, y 0, se pueden inferir a partir de las distribuciones 
a priori y la evidencia en las variables Sabot\ y EnvoltoriOj. 
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El enfoque mas obvio es buscar un modelo bueno. Podemos empezar con un mo- 
delo que no contiene arcos e ir anadiendo padres a cada nodo, fijando los paramétras 
con los métodos que ya hemos mencionado antes y midiendo la précision del modelo 
résultante. Alternativamente, podemos empezar con la estructura inicial que nos indi¬ 
que la intuiciôn y utilizar büsqueda en escalada ( hill-climbing ) o recocido simulado (si- 
mulated annealing ) para hacer modificaciones, refinando los paramétras después de cada 
cambio en la estructura. Las modificaciones pueden incluir invertir, anadir o borrar ar¬ 
cos. No debemos introducir ciclos en el proceso, por lo que muchos algoritmos supo- 
nen que viene dado un orden para las variables, y que los padres de un nodo solo pueden 
ser aquellos que aparecen antes que él segün este orden (exactamente como en el pro¬ 
ceso de construcciôn del Capitulo 14). Para una generalidad compléta, también necesi- 
tamos buscar sobre todos los ordenes posibles. 

Existen dos métodos alternatives para decidir cuândo se ha encontrado una buena 
estructura. El primera es comprobar si las afirmaciones de independencia condicional 
implicitas en la estructura se satisfacen realmente por los datos. Por ejemplo, el uso de 
un modelo de Bayes simple para el problema del restaurante asume que 

P (Vier/Sab, Bar\Esperar) — P(Vier/Sab\Esperar)P(Bar\Esperar) 

y podemos comprobar si la misma ecuacion se verifica entre las correspondientes fre- 
cuencias condicionales de los datos. Pero, incluso si la estructura describe la verdadera 
naturaleza causal del dominio, las fluctuaciones estadisticas en el conjunto de datos hace 
que la ecuacion nunca se satisfaga de forma exacta, por lo tanto, necesitamos desarro- 
llar un test estadistico adecuado para comprobar si hay suficiente evidencia de que la hi- 
potesis de independencia se ha violado. La complejidad de la red résultante dependerâ 
del umbral que se utilice en este test (un test de independencia es mas estricto y el peli- 
gro de sobreajuste es mayor cuantos mas arcos anade). 

Un enfoque mas consistente con las ideas de este capitulo consiste en medir en qué 
grado el modelo propuesto explica los datos (en un sentido probabilistico). Sin embargo, 
debemos tener cuidado al hacer esto. Si intentamos encontrar exactamente la hipotesis 
de mâxima verosimilitud, acabaremos con una red totalmente conectada porque anadir 
mas padres a un nodo no décrémenta la verosimilitud (Ejercicio 20.9). Estamos obliga- 
dos a penalizar de alguna forma la complejidad del modelo. El enfoque MAP (o MDL) 
simplemente resta una penalizacion de la verosimilitud de cada estructura (después del 
ajuste de paramétras) antes de comparar diferentes estructuras. El enfoque Bayesiano si¬ 
tua una distribucion conjunta a priori sobre las estructuras y paramétras. Normalmente 
hay muchas estructuras que considerar (superexponencial en el numéro de variables), por 
eso la mayorfa de los usuarios utilizan MCMC para muestrear sobre las estructuras. 

Penalizar la complejidad (mediante métodos MAP o bayesianos) introduce una co- 
nexiôn importante entre la estructura optima y la naturaleza de la representacion de las 
distribuciones condicionales en la red. Con distribuciones tabulares, la penalizacion de 
la complejidad para la distribucion de un nodo crece exponencialmente con el numéro 
de padres, pero con distribuciones de interaccion disyuntiva ( noisy-OR ) crece linealmente. 
Esto significa que con modelos noisy-OR (u otros modelos parametrizados de forma com¬ 
pacta), las estructuras aprendidas tienden a tener mas padres que con distribuciones ta¬ 
bulares. 
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20.3 Aprendizaje con variables ocultas: 
el algoritmo EM 


En la secciôn anterior tratamos el caso completamente observable. Muchos problemas 
variables latentes reales tienen variables ocultas (a veces denominadas variables latentes) que no son ob¬ 
servables en los datos disponibles para el aprendizaje. Por ejemplo, los registros médi- 
cos muchas veces incluyen los sintomas observados, el tratamiento aplicado, y quizâs 
el resultado del tratamiento, ;pero no contienen una observacion directa de la propia en- 
fermedad! * * * * * 6 Se podria preguntar: «Si la enfermedad no se ha observado, / ; por qué no cons- 
truir un modelo sin ella?». La respuesta esta en la Figura 20.7, que muestra un modelo 
de diagnôstico pequeno y ficticio para una enfermedad de corazon. Hay très factores dis¬ 
ponibles que se pueden observar y très sintomas observables (que es muy deprimente 
nombrar). Se asume que cada variable tiene très valores posibles (por ejemplo, nada, mo- 
derado y severo). Eliminando la variable oculta de la red en (a) se obtiene la red en (b); 
el nümero total de parâmetros aumenta de 78 a 708. Asi, las variables latentes pueden 
reducir dramâticamente el numéro de parâmetros que se requieren para especificar una 
red bayesiana. En realidad, esto puede reducir dramâticamente la cantidad de datos que 
se necesitan para aprender los parâmetros. 

Las variables ocultas son importantes, pero complican el problema de aprendiza¬ 
je. En la Figura 20.7(a), por ejemplo, no es obvio cômo aprender la distribuciôn con- 
dicional para EnfermedadCorazôn, dados sus padres, porque no conocemos el valor 
de EnfermedadCorazôn en cada caso; este mismo problema surge en el aprendizaje 




Figura 20.7 (a) Una red sencilla de diagnôstico de una enfermedad del corazon, que tiene una 

variable oculta. Cada variable tiene très valores posibles y es etiquetada con el numéros de parâ¬ 

metros indépendantes de su distribuciôn condicional; el nümero total es de 78. (b) La red équiva¬ 

lente con EnfermedadCorazôn eliminada. Observe que las variables sintoma no son 

condicionalmente independientes dados sus padres. Esta red requiere 708 parâmetros. 


6 Algunos registros contienen el diagnôstico sugerido por el médico, pero esto es una consecuencia causal 
de los sintomas, que en realidad son causados por la enfermedad. 
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de las distribuciones de los smtomas. Esta secciôn describe un algoritmo de maximi- 
zaciôn de la expectativa o EM, que resuelve este problema de una forma muy gene¬ 
ral. Mostraremos très ejemplos y proporcionaremos una descripciôn general. El 
algoritmo parece mâgico al principio, pero una vez que se ha desarrollado la intuiciôn, 
uno puede encontrar aplicaciones para EM en una gran variedad de problemas de apren- 
dizaje. 

Agrupamiento no supervisado: aprendizaje 
de mezclas de gaussianas 

El agrupamiento no supervisado es el problema de discemir mültiples categorias en 
una colecciôn de objetos. El problema es no supervisado porque no se proporcionan las 
étiquetas de las categorias. Por ejemplo, suponga que registramos el espectro de cien- 
tos de miles de estrellas; el espectro révéla que hay diferentes tipos de estrellas, si es asi 
/cuântas y cuâles son sus caracteristicas? Todos estamos familiarizados con términos 
como «gigante roja» y «enana blanca», pero las estrellas no llevan estas étiquetas escritas 
en sus sombreros; los astrônomos hubieron de realizar agmpamientos no supervisados 
para identificar estas categorias. Otros ejemplos incluyen la identificaciôn de especies, 
género, ôrdenes, etc., en la taxonomia de Linnean de los organismos y la creaciôn de cla- 
ses naturales para categorizar objetos ordinarios (véase Capitulo 10). 

El agrupamiento no supervisado comienza con los datos. La Figura 20.8(a) muestra 
unos datos que contienen 500 puntos, cada uno de los cuales especifica los valores de 
dos atributos continuos. Los puntos pueden corresponder a estrellas y los atributos pue- 
den corresponder a intensidades espectrales de dos frecuencias particulares. Necesita- 
mos entender qué tipo de distribuciôn de probabilidad pueden haber generado los datos. 
El agmpamiento presupone que los datos son generados a partir de una distribuciôn mez- 
cla, P. Cada distribuciôn tiene k componentes, cada una de las cuales es propiamente 
una distribuciôn. Un punto de los datos se généra eligiendo primero una componente y 





(a) (b) (c) 


Figura 20.8 (a) 500 puntos de los datos en dos dimensiones, que sugieren la presencia de très 

grupos. (b) Un modelo de mezclas de gaussianas con très componentes; los pesos (de izquierda a 
derecha) son 0,2, 0,3 y 0,5. Los datos de (a) fueron generados a partir de este modelo. (c) El mo¬ 
delo reconstruido por EM a partir de los datos de (b). 
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después generando una muestra a partir de esa componente. Sea la variable aleatoria C 
que dénota la componente, con valores 1, t, la distribuciôn mixtura viene dada por 

k 

P(x) = 'ZP(C = i)P(x\C = i) 

i=l 

donde x se refiere a los valores de los atributos para los puntos de los datos. Para datos 
continuos, una elecciôn natural de las distribuciones componentes es la gaussiana 
multivariante, que da lugar a la denominada familia de distribuciones de mezclas de 
gaussianas. Los paramétras de una mezcla de gaussianas son w, = P(C = i ) (el peso de 
cada componente), /q (la media de cada componente), y 2 ; (la covarianza de cada com¬ 
ponente). La Figura 20.8(b) muestra una mixtura de très gaussianas; esta mezcla es, de 
hecho, la fuente de los datos de (a). 

Enfonces, el problema de agrupamiento no supervisado es recuperar un modelo de 
mixtura como el que aparece en la Figura 20.8 (b) a partir de datos cru dos como los de 
la Figura 20.8(a). Claramente, si conociéramos qué componente généra cada punto de 
los datos séria fâcil recuperar las componentes gaussianas: podriamos seleccionar exac- 
tamente todos los puntos de los datos a partir de una componente dada y después apli- 
car (una version multivariante) de la Ecuacion (20.4) para ajustar los paramétras de una 
gaussiana a un conjunto de datos. Por otro lado, si conociéramos los parâmetros de cada 
componente podriamos, al menos en un sentido probabilistico, asignar cada punto de los 
datos a una componente. El problema es que no conocemos las asignaciones ni los pa¬ 
râmetros. 

La idea bâsica de EM en este contexto es fingir que conocemos los parâmetros del 
modelo e inferir la probabilidad de que cada punto de los datos pertenezca a cada com¬ 
ponente. Después de esto reajustamos las componentes a los datos, donde cada com¬ 
ponente se ajusta al conjunto de datos completo, donde cada punto tiene un peso igual 
a la probabilidad de que pertenezca a esa componente. El proceso se itéra hasta que con- 
verja. Esencialmente, estamos «completando» los datos, infiriendo las distribuciones de 
probabilidad de las variables ocultas (a qué componente pertenece cada punto de los da¬ 
tos) basândonos en el modelo actual. Para la mezcla de gaussianas, inicializamos los pa¬ 
râmetros del modelo de mezcla aleatoriamente y después iteramos los dos pasos 
siguientes: 

1. Paso-E: se calculan las probabilidades p jj = P(C = ;jx y ), probabilidad de que el 
dato Xj sea generado por la componente i. Mediante la régla de Bayes, tenemos 

= a P(xjC = i ) P(C = i). El término P(x.|C = i) es exactamente la probabili¬ 
dad para Xj de la i-ésima gaussiana, y el término P(C = i) es exactamente el pa¬ 
ramétra peso de la i-ésima gaussiana. Définir p t = /r, 

2. Paso-M: calcular la nueva media, covarianza y pesos de las componentes como 
sigue: 

ri- <- 'ZPijXj/Pi 

j 

2, ^'lp lj x j x' j lp i 

J 

COi Pi 



828 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


VARIABLE INDICADOR 



El paso-E o paso del câlculo de esperanzas, se puede ver como el câlculo de los valo- 
res esperados p tj de las variables indicador ocultas Z y , donde Z (/ es 1 si el dato x, fue 
generado por la i-ésima componente y 0 en otro caso. El paso-M, o paso de maximi- 
zaciôn, encuentra los nuevos valores de los parâmetros que maximizan el logaritmo de 
la verosimilitud de los datos, dados los valores esperados de las variables indicador ocul¬ 
tas. 

En la Figura 20.8(c) se muestra el modelo final que aprende EM cuando se aplica a 
los datos de la Figura 20.8(a); prâcticamente es indistinguible del modelo original a par¬ 
tir del que los datos fueron generados. La Figura 20.9(a) muestra el logaritmo de la ve¬ 
rosimilitud de los datos de acuerdo al modelo actual a medida que EM progresa. Hay 
dos puntos a resaltar. Primero, el logaritmo de la verosimilitud para el modelo aprendi- 
do final supera ligeramente el del modelo original a partir del que los datos fueron ge¬ 
nerados. Esto puede parecer sorprendente, pero simplemente refleja el hecho de que los 
datos fueron generados aleatoriamente y puede que no proporcionen un reflejo exacto 
del modelo subyacente. El segundo punto es que EM incrementa el logaritmo de la ve¬ 
rosimilitud de los datos en cada iteraciôn. Este hecho se puede demostrar en general. 
Ademâs, bajo ciertas condiciones, se puede probar que EM alcanza un mâximo local de 
verosimilitud. (En casos raros, podria alcanzar un punto de silla o incluso un minimo 
local.) En este sentido, EM se parece al algoritmo de escalada basado en el gradiente, 
pero jobserve que no tiene el parâmetro de «tamano del paso»! 

Las cosas no siempre funcionan tan bien como sugiere la Figura 20.9(a). Por ejem- 
plo, puede ocurrir que una componente gaussiana se encoja y cubra ünicamente un solo 
punto de los datos. jEn este caso su varianza sera cero y su verosimilitud sera infinito! 
Otro problema es que dos componentes se pueden «fundir», adquiriendo médias y va- 
rianzas idénticas y compartiendo sus puntos de los datos. Estos tipos de mâximos loca¬ 
les degenerados constituyen problemas serios, especialmente en grandes dimensiones. 




Figura 20.9 Los grâficos muestran el logaritmo de la verosimilitud de los datos, L, como una fun- 
ciôn de la iteraciôn de EM. La linea horizontal es el logaritmo de la verosimilitud del modelo ver- 
dadero. (a) Grâfico para el modelo de mezcla gaussiana de la Figura 20.8. (b) Grâfico para la red 
bayesiana de la Figura 20.10(a). 
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Una solucion es situar distribuciones a priori en los parâmetros del modelo, y aplicar la 
version MAP de EM. Otra es reinicializar una componente con parâmetros aleatorios 
nuevos si es muy pequena o si esta muy cercana a otra componente. También ayuda ini- 
cializar los parâmetros con valores razonables. 


Aprendizaje de redes bayesianas con variables ocultas 

Para aprender una red bayesiana con variables ocultas, aplicamos las mismas ideas que 
funcionaban para mezclas de gaussianas. La Figura 20.10 représenta una situacion en 
la que hay dos boisas de caramelos que han sido mezcladas. Los caramelos se descri- 
ben por très caracteristicas: ademâs del Sabor y el Envoltorio, algunos caramelos tienen 
un A gujero en el medio y otros no. 

La distribucion de los caramelos de cada boisa se describe por un modelo de Bayes 
simple: las caracteristicas son independientes, dada la boisa, pero la distribucion de pro- 
babilidades condicionales para cada caracteristica dépende de la boisa. Los parâmetros 
son los siguientes: d es la probabilidad a priori de que un caramelo venga de la Boisa 1; 
d Fl y 6^ son las probabilidades de que el sabor sea cereza, dado que el caramelo viene 
de la Boisa 1 y la Boisa 2 respectivamente; d m y d w2 son las probabilidades de que el 
envoltorio sea rojo; y d H1 y d H2 son las probabilidades de que el caramelo tenga un agu- 
jero. Observe que el modelo global es un modelo de mixtura. (De hecho, también po- 
demos modelizar la mezcla de gaussianas como una red bayesiana, como muestra la 
Figura 20.10(b).) En la figura, la boisa es una variable oculta, porque una vez que los 
caramelos se han mezclado no sabemos de qué boisa venia cada uno. En este caso, <-po- 
demos recuperar las descripciones de las dos boisas observando los caramelos a partir 
de la mezcla? 



Figura 20.10 (a) Un modelo de mixtura para los caramelos. Las proporciones de sabores dife- 

rentes, envoltorios y numéro de agujeros dependen de la boisa, que no se ha observado. (b) Red 
bayesiana para la mezcla gaussiana. La media y la covarianza de las variables observables X dé¬ 
pende de la componente C. 
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Hagamos una iteracion del algoritmo EM para este problema. Primero nos fijamos 
en los datos. Generamos 1.000 muestras a partir de un modelo cuyos verdaderos para¬ 
métras son 


e = 0,5, e F1 = e m = e m = o, 8 , e F2 = e m = e H2 = 0,3 (20.7) 

Es decir, es igualmente probable que los caramelos vengan de cualquier boisa; la pri¬ 
mera contiene en su mayoria caramelos de cereza con envoltorio rojo y agujero; la se- 
gunda contiene en su mayoria caramelos de lima con envoltorio verde y sin agujero. Los 
recuentos para los ocho tipos posibles de caramelos son los siguientes: 



W = rojo 

W = verde 


H= 1 

H= 0 

H= 1 

H= 0 

F = cereza 

273 

93 

104 

90 

F = lima 

79 

100 

94 

167 


Comenzamos inicializando los paramétras. Por simplicidad numérica elegimos 7 

e m = 0,6, = C = 0,6, 0% = e<°> = e™ = 0,4 (20.8) 

Primera, trabajamos sobre el parâmetro 6. En el caso completamente observable, po- 
drfamos estimar éste directamente a partir de los nümeros observados de caramelos de 
las boisas 1 y 2. En lugar de esto, ya que la boisa es una variable oculta, calculamos los 
nümeros esperados. El nümero esperado es la suma, sobre todos los caramelos, de la pro- 
babilidad de que el caramelo venga de la boisa 1: 

N 

6 ' 1 ’ = N(Bolsa = 1 )/N = 2 P(Bolsa = l\sabor-, envoltorioj, agujeroSj)/N 

7=1 

Estas probabilidades se pueden calculai - utilizando cualquier algoritmo de inferencia para 
redes bayesianas. Para un modelo de Bayes simple como el de nuestro ejemplo, pode- 
mos hacer la inferencia «a mano», utilizando la régla de Bayes y aplicando independencia 
condicional: 


1 N 

N 7=1 


P(sabor\Bolsa = Y)P (envoltorio \Bolsa = \)P(agujeros j\Bolsa = 1 )P(Bolsa = 1 ) 
P(sabor\Bolsa = ï)P (envoltorio \Bolsa = i)P(agujeros jBoIsa = i)P(Bolsa = i) 


(Observe que la constante de normalizacion también dépende de los paramétras.) Apli¬ 
cando esta formula a los 273 caramelos de cereza con envoltorio rojo y agujeros, obte- 
nemos una contribucion de 


273 e ( X\e^\e w 

--« 0 22797 

îooo 

Continuando con los otros siete tipos de caramelos en la tabla de recuentos, obtenemos 
0 (1) = 0,6124. 


7 En la prâctica es mejor elegirlos aleatoriamente, para evitar mâximos locales debidos a simetria. 
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Ahora consideramos los otros paramétras, como d n . En el caso completamente ob¬ 
servable, estimariamos éste directamente de los numéros observados de caramelos de 
cereza y lima de la boisa 1. El numéro esperado de caramelos de cereza de la boisa 1 
viene dado por 

2 P(BoIsa = \\SaboVj — cereza, envoltorioj, agujeroSj ) 

j:Sabofj = cereza 

Otra vez, estas probabilidades se pueden calcular mediante cualquier algoritmo de ra¬ 
des de Bayes. Completando este proceso, obtenemos los nuevos valores de todos los pa¬ 
ramétras: 

d (1) = 0,6124, 0$ = 0,6684, d^\ = 0,6483, 0 ( H \ = 0,6558 

d ( P 2 = 0,3887, C, = 0,3817, 0$, - 0,3827 (2 °' 9) 

El logaritmo de la verosimilitud de los datos se incrementa aproximadamente desde — 
2044, hasta alrededor de —2021 después de la primera iteracion, como muestra la Figu¬ 
ra 20.9(b). Es decir, la actualizacion mejora la verosimilitud con un factor de 
aproximadamente e 23 ~ 10 10 . En la décima iteracion, el modelo aprendido esta mejor ajus- 
tado que el modelo original (L = —1.982,214). De aqui en adelante, el proceso se hace 
muy lento. Esto no es extrano con EM, y muchos sistemas prâcticos combinan EM con 
un algoritmo basado en el gradiente como Newton-Raphson ( véase Capitulo 4) para la 
ültima fase del aprendizaje. 

La leccion general de este ejemplo es que las actualizaciones de parâmetros para 
aprendizaje en redes bayesianas con variables ocultas estân directamente disponibles 
a partir de los resultados de la inferencia en cada ejemplo. Ademâs, solo se necesitan 
para cada parâmetro las probabilidades a posteriori locales. Para el caso general, en el 
que estamos aprendiendo los parâmetros de las probabilidades condicionales para cada 
variable X t , dados sus padres (esto es, 6 lJk = P (X : = x j} \ Pa i = pa ik )) la actualizacion viene 
dada por los nümeros esperados normalizados como sigue: 

d i jk «“ Ü(X, = x u , Pa i = pa ik )/N(Pa i = pa ik ) 

Los nümeros esperados se obtienen sumando sobre los ejemplos, calculando las proba¬ 
bilidades P (X t =x jj , Pa = pa ik ) para cada uno, haciendo uso de cualquier algoritmo de 
inferencia de redes de Bayes. Para los algoritmos exactos (incluyendo eliminacion de 
variables) todas estas probabilidades se pueden obtener directamente como resultado de 
hacer una inferencia estândar, sin la necesidad de câlculos extra especificos para el 
aprendizaje. Ademâs, la informaciôn que se necesita para el aprendizaje estâ disponible 
localmente para cada parâmetro. 


Aprendizaje de modelos de Markov ocultos 

Nuestra aplicacion final de EM implica el aprendizaje de las probabilidades de transiciôn 
en modelos de Markov ocultos (hidden Markov models o HMMs). Recordamos del Ca- 
pitulo 15 que un modelo de Markov oculto se puede representar mediante una red de Ba¬ 
yes dinâmica con una ünica variable de estado discreto, como se ilustra en la Figura 20.11. 
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Figura 20.11 Una red bayesiana dinâmica expandida, que représenta un modelo de Markov 
oculto (repeticion de la Figura 15.14). 


Cada punto de los datos consiste en una secuencia de observacion de longitud finita, por 
lo que el problema es aprender las probabilidades de transicion a partir de un conjunto 
de secuencias de observaciones (o posiblemente de una sola secuencia larga). 

Ya hemos trabajado en el aprendizaje de redes de Bayes, pero hay una complicacion: 
en las redes de Bayes cada paramétra es distinto; en un modelo de Markov oculto, las 
probabilidades individuales de transicion desde el estado i hasta el estado j en el instante 
t, 6 ijt = P (X, +1 = j\X t = i), se repiten a lo largo del tiempo, es decir, 6 ijt = 6 tj para todo t. 
Para estimar las probabilidades de transicion del estado i al estado j, simplemente cal¬ 
culants la proporciôn esperada de veces que el sistema expérimenta una transicion al 
estado j cuando esta en el estado /: 

t t 

Otra vez, los nümeros esperados se calculan mediante algün algoritmo de inferencia 
HMM. El algoritmo mixto (forward-backward) mostrado en la Figura 15.4 se puede 
modificar muy fâcilmente para computar las probabilidades necesarias. Un punto im¬ 
portante es que las probabilidades que se requieren son aquellas que se obtienen por sua- 
vizado en vez de por filtrado; esto es, necesitamos poner atencion a la evidencia 
posterior en la estimacion de la probabilidad de que ocurra una transicion particular. Como 
dijimos en el Capitulo 15,1a evidencia en un caso de asesinato normalmente se obtiene 
después de que el crimen (la transicion del estado i al estado j) ocurra. 

Forma general del algoritmo EM 

Hemos visto varios ejemplos del algoritmo EM. Cada uno implica el câlculo de los va- 
lores esperados de las variable ocultas para cada ejemplo y después la actualizacion de 
los paramétras, utilizando los valores esperados como si fueran valores observados. Sea 
x el conjunto de todos los valores observados en todos los ejemplos, Z el conjunto de 
todas las variables ocultas para todos los ejemplos y 6 el conjunto de todos los paramé¬ 
tras para el modelo probabilistico. El algoritmo EM es 

0 (i+1) = argmax^EjZ = z|x, 0 (! ')L(x, Z = z\d) 
e z 
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Esta ecuacion résumé el algoritmo EM. El paso-E es el câlculo del sumatorio, que es el 
valor esperado del logaritmo de la verosimilitud de los datos «completados» respecto a 
la distribucion P( Z = z|x, 6 (l) ), que es la distribuciôn a posteriori de las variables ocul- 
tas, dados los datos. El paso-M es la maximizacion de este logaritmo de la verosimili¬ 
tud esperado respecto a los parâmetros. Para mezclas de gaussianas, las variables ocultas 
son Z-s, donde es Z (/ es 1 si el ejemplo j fue generado por la componente i. Para redes 
de Bayes, las variables ocultas son los valores de las variables no observadas de cada 
ejemplo. Para HMMs, las variables ocultas son las transiciones i —* j. Comenzando a 
partir de la forma general, es posible derivar un algoritmo EM para cada aplicacion es- 
pecifica, una vez que se han identificado las variables ocultas apropiadas. 

En cuanto entendamos la idea general de EM, sera tarea fâcil obtener todos los ti- 
pos de variantes y mejoras. Por ejemplo, en muchos casos el paso-E (el câlculo de las 
distribuciones a posteriori de las variables ocultas) es intratable, como en las redes de 
Bayes grandes. Puede ser que utilizando un paso-E aproximado se siga obteniendo un 
algoritmo de aprendizaje efectivo. Con un algoritmo de muestreo como MCMC ( véase 
Apartado 14.5), el proceso de aprendizaje es muy intuitivo: cada estado (configuracion 
de variables ocultas y observadas) visitado por MCMC se trata exactamente como si fue- 
ra una observacion compléta. Asi, los parâmetros se pueden actualizar directamente des- 
pués de cada transicion MCMC. Se ha demostrado que otras formas de inferencia 
aproximada, como los métodos con variaciones ( yariational ) y para ciclos ( loopy ), son 
efectivas para el aprendizaje de redes muy grandes. 


Aprendizaje de la estructura de las redes de Bayes 
con variables ocultas 

En el Apartado 20.2, discutimos el problema del aprendizaje de las estructuras de redes 
de Bayes con datos completos. Cuando consideran variables ocultas, las cosas son mâs 
complicadas. En el caso mâs simple, las variables ocultas se listan junto con las varia¬ 
bles observadas; de esta forma, aunque sus valores no son observados, el algoritmo de 
aprendizaje sabe que existen y debe encontrar un lugar para ellas en la estructura de la 
red. Por ejemplo, un algoritmo puede intentar aprender la estructura que se muestra en 
la Figura 20.7(a), dada la informacion de que EnfermedadCorazon (una variable de très 
valores) debe ser incluida en el modelo. Si el algoritmo de aprendizaje no conociera esta 
informacion, habrfa dos elecciones posibles: fingir que los datos son realmente completos 
(lo que obligaria al algoritmo a aprender el modelo con muchos parâmetros de la Figu¬ 
ra 20.7(b)) o inventai' nuevas variables ocultas para simplificar el modelo. El ültimo en- 
foque se puede implementar incluyendo nuevas opciones de modificaciôn en la estructura 
de büsqueda: ademâs de modificar arcos, el algoritmo puede anadir o borrar una varia¬ 
ble oculta o cambiar su aridad. Por supuesto, el algoritmo no sabrâ que la nueva varia¬ 
ble oculta que ha inventado se llama EnfermedadCorazon', ni tampoco tendrâ nombres 
caracteristicos para los valores. Afortunadamente, las nuevas variables ocultas inventa- 
das normalmente estarân conectadas con variables que ya existian, y por lo tanto, un ex¬ 
perte humano podrâ inspeccionar las distribuciones condicionales locales en las que estâ 
implicada la nueva variable y averiguar su significado. 
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Como en el caso de datos completos, el aprendizaje puro de la estructura por mâxi- 
ma verosimilitud darâ como resultado una red completamente conectada (ademâs sin va¬ 
riables ocultas), por esto se requiere alguna forma de penalizacion de la complejidad. 
También podemos aplicar MCMC para aproximar el aprendizaje bayesiano. Por ejem- 
plo, podemos aprender mezclas de gaussianas con un nümero de componentes desco- 
nocido muestreando sobre el nümero; la distribucion a posteriori aproximada para el 
nümero de gaussianas viene dada por las frecuencias de muestreo del proceso MCMC. 

Hasta ahora, el proceso del que hemos hablado tiene un bucle externo que es un pro¬ 
ceso de büsqueda de la estructura, y un bucle interno que es un proceso de optimizacion 
paramétrica. Para el caso de datos completos, el bucle interno es muy râpido: extraer las 
frecuencias condicionales del conjunto de datos. Cuando hay variables ocultas, el bucle 
interno puede suponer muchas iteraciones de EM o de un algoritmo basado en el gra- 
diente, y cada iteracion implica el câlculo de las distribuciones a posteriori en una red 
de Bayes, que en si mismo es un problema NP-duro. Hasta la fecha, se ha probado que 
este enfoque es impracticable para modelos de aprendizaje complejos. Una posible me- 
jora es el algoritmo denominado EM estructural, que opéra en casi todo de la misma 

EM ESTRUCTURAL J o r 

forma que el ordinario (paramétrico), excepto que puede actualizar tanto la estructura 
como los parâmetros. Al igual que el EM ordinario, utiliza los paramétras actuales para 
calcular los nümeros esperados en el paso-E y después aplica esos nümeros en el paso- 
M para elegir los nuevos parâmetros, el EM estructural utiliza la estructura actual para 
calcular los nümeros esperados y después aplica esos nümeros en el paso-M para eva- 
luar la verosimilitud de las nuevas estructuras potenciales. (Esto contrasta con el méto- 
do del bucle externo/interno, que calcula los nuevos nümeros esperados para cada 
estructura potencial.) De esta forma, el EM estructural puede realizar varias alteracio- 
nes estmcturales en la red sin recalcular los nümeros esperados, y es capaz de aprender 
estructuras de redes de Bayes no triviales. Sin embargo, todavia queda por hacer mucho 
trabajo antes de que podamos decir que el problema de aprendizaje de la estructura esta 
resuelto. 


20.4 Aprendizaje basado en instancias 


Hasta ahora, nuestra discusiôn sobre el aprendizaje estadistico se ha centrado princi- 
palmente en el ajuste de los parâmetros de una familia restringida de modelos de pro- 
babilidad a un conjunto de datos no restringido. Por ejemplo, el agrupamiento no 
supervisado que utiliza mezclas de gaussianas supone que los datos se explican mediante 
la suma de un nümero fijo de distribuciones gaussianas. Denominamos a este tipo de 
métodos, métodos de aprendizaje paramétrico. Los métodos de aprendizaje paramé¬ 
trico normalmente son simples y efectivos, pero frecuentemente, asumir una familia de 
modelos particular y restringida simplifica demasiado lo que estâ pasando en el mun- 
do real, del que vienen los datos. Ahora, es cierto que cuando tenemos un conjunto de 
datos muy pequeno, no podemos esperar aprender un modelo complejo y detallado, pero 
parece absurdo mantener la hipotesis de complejidad fija cuando el conjunto de datos 
crece mucho. 
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APRENDIZAJE NQ 
PARAMÉTRICO 


APRENDIZAJE BASADO 
EN INSTANCIAS 


En contraste con el aprendizaje paramétrico, los métodos de aprendizaje no para- 
métrico permiten que la complejidad de la hipotesis crezca con los datos. Cuantos mas 
datos tengamos, mas compleja puede ser la hipotesis. Estudiaremos dos familias muy 
sencillas de métodos de aprendizaje basado en instancias (o aprendizaje basado en 
memoria) no paramétricos, que se denominan asf porque construyen hipotesis directa- 
mente a partir de las propias instancias de entrenamiento. 


Modelos de vecinos mas cercanos 


VECINOS MÂS 
CERCANOS 


La idea clave de los modelos de vecinos mas cercanos es que es probable que las pro- 
piedades de un punto de entrada particular x sean similares a las de los puntos cerca¬ 
nos a x. Por ejemplo, si queremos hacer estimaciôn de la densidad (esto es, estimar 
el valor de una densidad de probabilidad desconocida en x) podemos simplemente me- 
dir la densidad con aquellos puntos que estân dispersos en las cercanias o en la vecin- 
dad de x. Esto parece muy sencillo, hasta que nos demos cuenta de que necesitamos 
especificar exactamente que queremos decir con «vecindad». Si la vecindad es muy pe- 
quena, no contendrâ ningün punto de los datos; si es muy grande, puede incluir a to- 
dos los puntos de los datos, dando lugar a una estimaciôn de la densidad que es la misma 
en cualquier lugar. Una soluciôn es définir la vecindad lo suficientemente grande como 
para incluir k puntos, donde k es lo suficientemente grande como para asegurar una es¬ 
timaciôn con significado. Para k fijo, el tamano de la vecindad varia; si los datos estân 
dispersos, la vecindad es grande, pero si los datos estân muy juntos, la vecindad es pe- 
quena. La Figura 20.12(a) muestra un ejemplo en dos dimensiones para datos disper¬ 
sos. La Figura 20.13 muestra los resultados de la estimaciôn de la densidad con k vecinos 



Figura 20.12 (a) Un subconjunto de 128 puntos de los datos mostrados en la Figura 20.8(a), jun- 

to con dos puntos consulta y sus 10 vecinos mas cercanos. (b) Un grâftco 3-D de la mezcla de gaus- 
sianas a partir de la que los datos fueron generados. 
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Figura 20.13 Estimation de la densidad utilizando Uvecinos-mâs-cercanos, aplicada a los datos 
de la Figura 20.12(a), para k = 3, 10 y 40 respectivamente. 


mâs cercanos para esos datos, con k = 3, 10 y 40 respectivamente. Para k = 3, la den¬ 
sidad estimada en cualquier punto se basa ünicamente en très puntos cercanos y es al- 
tamente variable. Para k = 10, la estimacion proporciona una buena reconstruccion de 
la verdadera densidad mostrada en la Figura 20.12(b). Para k = 40 la vecindad se hace 
muy grande y la estructura de los datos se pierde. En la prâctica, utilizar un valor de k 
entre 5 y 10 proporciona buenos resultados para la mayoria de los conjuntos de datos 
con pocas dimensiones. También se puede elegir un buen valor de k utilizando valida- 
cion cruzada. 

Para identificar los vecinos mâs cercanos de un punto, necesitamos una métrica para 
medir la distancia, D(x p x 2 ). El ejemplo de dos dimensiones de la Figura 20.12 utiliza 
la distancia Euclfdea. Esto no es apropiado cuando cada dimension del espacio se mide 
de forma diferente (por ejemplo altura y peso) porque cambiar la escala de una dimen¬ 
sion podrfa cambiar el conjunto de vecinos mâs cercanos. Una solucion es estandarizar 
la escala para cada dimension. Para hacer esto, medimos la desviacion estândar de cada 
caracteristica sobre el conjunto de datos y expresamos los valores de la caracterfstica como 
mültiplos de la desviacion estândar de esa caracteristica. (Esto es un caso especial de la 
distancia de Mahalanobis, que tiene en cuenta también la covarianza de las caracte- 
risticas.) Finalmente, para caracteristicas discretas podemos utilizar la distancia de 
Hamming, que define D(x,, x 2 ) como el nümero de caracteristicas en las que x, y x 2 di- 
fieren. 

Las estimaciones de densidad, como las mostradas en la Figura 20.13, definen dis- 
tribuciones conjuntas sobre el espacio de entrada. Sin embargo, al contrario que las re- 
des bayesianas, una representaciôn basada en instancias no contiene variables ocultas, 
lo que significa que no podemos llevar a cabo aprendizaje no supervisado como hacla- 
mos con el modelo de mezcla de gaussianas. Todavia podemos utilizar la estimacion de 
densidad para predecir un valor principal, y, dados los valores de entrada de las carac¬ 
teristicas x, calculando P(y|x) = P (y, x)/P(x), siempre que los datos de entrenamiento 
incluyan valores para la caracteristica principal. 

También es posible utilizar la idea de vecinos mâs cercanos para hacer aprendizaje 
supervisado. Dado un ejemplo de test con entrada x, la salida y = h(x) se obtiene a par¬ 
tir de los valorcs-y de los k vecinos mâs cercanos a x. En el caso discreto, se puede ob- 
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MODELO NLICLEO 
FUNCIÔN NLICLEO 


tener una predicciôn simple mediante el voto de la mayoria. En el caso continuo, pode- 
mos calcular la media de k valores o hacer regresiôn lineal, ajustando un hiperplano a k 
puntos y prediciendo el valor de x de acuerdo con el hiperplano. 

El algoritmo de Uvecinos-mâs-cercanos es muy sencillo de implementar, requiere 
poco para ponerse a punto y normalmente tiene buen rendimiento. Es recomendable pro- 
barlo primero con un nuevo problema de aprendizaje. Sin embargo, para conjuntos de 
datos grandes, se requiere un mecanismo eficiente para encontrar los vecinos mas cer- 
canos de un punto de consulta x (calcular simplemente la distancia a cada punto podrfa 
llevar mue ho tiempo). Se han propuesto varios métodos ingeniosos que preprocesan los 
datos de entrenamiento para que este paso sea eficiente. Desafortunadamente, la mayo¬ 
ria de estos métodos no escalan bien la dimension del espacio (es decir, el nümero de 
caracteristicas). 

Los espacios de muchas dimensiones plantean un problema adicional, ;los vecinos 
mas cercanos en estos espacios estân normalmente lejos! Considéré un conjunto de da¬ 
tos de tamano N en el hipercubo unidad d-dimensional y suponga una vecindad hiper- 
cübica de lado b y volumen b d . (El mismo argumento funciona para hiperesferas, pero 
la formula del volumen de una hiperesfera es mas complicada.) Para contener k puntos, 
la vecindad media debe ocupar una fracciôn k/N del volumen total, que es 1. Por lo tan- 
to, b d — k/N , o b = ( k/N) 1,J . De momento bastante bien. Ahora pongamos que el numé¬ 
ro de caracteristicas c/es 100, kes lOy/Ves 1.000.000. Entonces, tenemos b ~ 0,89, esto 
es, jla vecindad se tiene que expandir a casi todo el espacio de entrada! Esto sugiere que 
los métodos de vecinos mas cercanos no son de confianza para datos con muchas di¬ 
mensiones. En pocas dimensiones no hay problema; con d = 2 tenemos b = 0,003. 


Modelos nücleo 


En un modelo nûcleo (kernel model), vemos cada instancia de entrenamiento como si 
generara una pequena funciôn de densidad (una funciôn nûcleo) de si misma. La esti- 
maciôn de densidad compléta es exactamente la suma normalizada de todas las pequenas 
funciones nücleo. Una instancia de entrenamiento x j généra una funciôn nücleo K(x, 
x,) que asigna una probabilidad a cada punto x del espacio. Asi, la estimaciôn de den¬ 
sidad es 

N 

P(x) = 1WX K(x, x,) 

i=\ 


La funciôn nücleo normalmente dépende solo de la distancia D(x, x,) de x a la instan¬ 
cia x ; . La funciôn nücleo mas popular es (por supuesto) la gaussiana. Por simplicidad, 
asumiremos gaussianas esféricas con desviaciôn estândar w a lo largo de cada eje, es de¬ 
cir, 


K(x, x,.) = 



D(x, x ,) 2 
2<„ 2 


donde d es el nümero de dimensiones de x. Aün tenemos el problema de elegir un va¬ 
lor de w adecuado; como antes, hacer la vecindad muy pequena proporciona una esti- 
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maciôn muy puntiaguda, véase Figura 20.14(a). En (b), un valor medio para w propor- 
ciona una reconstrucciôn muy buena. En (c), una vecindad muy grande da como resul- 
tado la pérdida de la estructura. Se puede elegir un buen valor de w utilizando validaciôn 
cruzada. 

El aprendizaje supervisado con nücleos se lleva a cabo tomando una combinacion 
ponderada de todas las predicciones, a partir de las instancias de entrenamiento. (Com¬ 
pare esto con la predicciôn de k vecinos mas cercanos, que toma una combinacion no 
ponderada de las k instancias mas cercanas.) El peso de la z-ésima instancia para un pun- 
to de consulta x, viene dado por el valor del nücleo K(x, x ; ). Para una predicciôn dis- 
creta, tomamos un voto ponderado; para una predicciôn continua, tomamos la media 
ponderada o una regresiôn lineal ponderada. Observe que hacer predicciones con nücleos 
requiere observar cada instancia de entrenamiento. Es posible combinar nücleos con ve¬ 
cinos mas cercanos indexando los esquemas para conseguir predicciones ponderadas üni- 
camente a partir de las instancias mas cercanas. 


20.5 Redes neuronales 


Una neurona es una célula del cerebro cuya funciôn principal es la recogida, procesa- 
miento y émision de senales eléctricas. La Figura 1.2 mostraba un diagrama esquemâ- 
tico de una neurona tipica. Se piensa que la capacidad de procesamiento de informaciôn 
del cerebro proviene principalmente de redes de este tipo de neuronas. Por esta razôn, 
redes neuronales algunos de los primeros trabajos en IA pretendian crear redes neuronales artificiales. 

(Otros nombres para este campo son conexionismo, procesamiento distribuido para- 
lelo, y computaciôn neuronal.) La Figura 20.15 muestra un modelo matemâtico sen- 
cillo para la neurona ideada por McCulloch y Pitts (1943). Desde un punto de vista 
informai, la neurona se «dispara» cuando una combinacion lineal de sus entradas exce- 
de un determinado umbral. Desde 1943 se han desarrollado modelos mas realistas y de- 
tallados, tanto para neuronas como para sistemas mas grandes del cerebro, llevândonos 
al campo moderno de la neurociencia computacional. Por otro lado, los investigado- 
res de IA y de estadistica se han interesado en las propiedades mas abstractas de las re- 


NEUROCIENCIA 

COMPUTACIONAL 



(a) (b) (c) 


Figura 20.14 Estimacion nücleo de densidad para los datos de la Figura 20.12(a), utilizando nü¬ 
cleos gaussianos con w = 0,02, 0,07, y 0,20 respectivamente. 
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des neuronales, taies como su habilidad para desarrollar computaciôn distribuida, para 
tolerar el ruido en la entrada, y para el aprendizaje. Aunque ahora comprendemos que 
otras clases de sistemas (incluyendo redes bayesianas) tienen estas propiedades, las re- 
des neuronales permanecen como una de las formas mas populares y efectivas de cons- 
truir sistemas de aprendizaje y son dignas de estudio por si mismas. 


Unidades en redes neuronales 


UNIDADES 

CONEXIONES 

ACTIVACIÔN 

PESO 


FUNCIÔN DE 
ACTIVACIÔN 


PESO DE SESGO 


UMBRAL 

FUNCIÔN SIGMOÏDE 
FUNCIÔN LOGISTICA 


Las redes neuronales estân compuestas de nodos o unidades (véase Figura 20.15) co- 
nectadas a través de conexiones dirigidas. Una conexion de la unidad j a la unidad i sir- 
ve para propagar la activaciôn üj de j a i. Ademâs cada conexion tiene un peso numérico 
Wj t asociado, que détermina la fuerza y el signo de la conexion. Cada unidad i primero 
calcula una suma ponderada de sus entradas: 

n 

ini = E W ) i a j 

i =o 


Luego aplica una funciôn de activaciôn g a esta suma para producir la salida: 


h = g(in,) = g E W ut 

\J =o 




( 20 . 10 ) 


Nôtese que se ha incluido un peso de sesgo W 0 , conectado a una entrada fija a 0 — — 1. 
Se explicarâ por qué en un momento. 

La funciôn de activaciôn g se disena con dos objetivos. Primero, queremos que la 
unidad esté «activa» (cercana a +1) cuando se proporcionen las entradas «correctas», e 
«inactiva» (cercana a 0) cuando se den las entradas «errôneas». Segundo, la activaciôn 
tiene que ser no lineal, en otro caso la red neuronal en su totalidad se colapsaria con una 
sencilla funciôn lineal (véase Ejercicio 20.17). En al Figura 20.16 se muestran dos po- 
sibles funciones g: la funciôn umbral y la funciôn sigmoide (también conocida como 
funciôn logistica). La funciôn sigmoide tiene la ventaja de ser diferenciable, lo cual, como 
veremos mas adelante, es importante para el algoritmo del aprendizaje de los pesos. Nô- 


«o = -l 


Peso de sesgo 


a, = g0'«;) 



Conexiones 
de las entradas 


Funciôn Funciôn 
de la entrada de activaciôn 


Salida 



Conexiones 
de salidas 


Figura 20.15 Un modelo matemâtico sencillo para una neurona. La activaciôn de la salida de la 
unidad es a i = gŒ" = 0 Wj , a y ), donde a . es la activaciôn de la salida de la unidad j y Wj , es el peso 
de la conexion de la unidad j a esta unidad. 
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+1 

g(ind 

+ 1 

g(ind 

0 

irij 

t) o 

irii 

9 

Figura 20.16 (a) La funcion de activacion umbral, con salida 1 cuando la entrada es positiva y 0 

en otro caso. (Algunas veces se usa en lugar de esta la funcion signo, con salida + 1 dependiendo 
de la senal de la entrada.) (b) La funcion sigmoide 1/(1 + e *). 


tese que ambas funciones tienen un umbral (ni severo ni suave) de cero; los pesos de ses- 
go W Q i constituyen el umbral real de la unidad, en el sentido de que la unidad se activa 
cuando la suma de los pesos de las entradas «reales» 2* =1 W ; , (es decir, incluyendo 
la entrada del sesgo) excede W 0 

Podemos asemejar la operaciôn de las unidades individuales a puertas logicas. Una 
de las motivaciones originales para el diseno de unidades individuales (McCulloch y Pitts, 
1943) fue su habilidad para representar funciones booleanas bâsicas. La Figura 20.17 
muestra como se pueden representar las funciones booleanas AND, OR y NOT con uni¬ 
dades umbral con los pesos adecuados. Esto es importante ya que significa que pode¬ 
mos usar estas unidades para construir una red que calcule cualquier funcion booleana 
de las entradas. 


Estructuras de las redes 


REDES CON 

ALIMENTACIÔN- 

HACIA-DELANTE 


REDES RECURRENTES 


Existen dos categorias principales de estructuras de redes neuronales: aciclicas o redes 
con alimentaciôn-hacia-delante y ciclicas o redes récurrentes. Una red con alimen- 
tacion-hacia-delante représenta una funcion de sus entradas actuales; de este modo, no 
tiene otro estado intemo que no sea el de sus propios pesos. Por otro lado, una red re- 
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currente permite que sus salidas alimenten sus propias entradas. Esto significa que los 
niveles de activacion de la red forman un sistema dinâmico que debe alcanzar un esta- 
do estable, exhibir oscilaciones o incluso un comportamiento caotico. Ademâs, la res- 
puesta de la red dadas unas entradas dépende de su estado inicial, que dependerâ de 
entradas previas. Por lo tanto, las redes récurrentes (a diferencia de las redes con ali¬ 
mentacion hacia delante) pueden tener memoria a corto plazo. Esto las hace mas inte- 
resantes como modelos del cerebro, pero también mas difîciles de entender. Esta seccion 
se concentrarâ en las redes con alimentacion hacia delante: al final del capitule» se pro- 
porcionan algunas lecturas adicionales sobre redes récurrentes. 

Analicemos mas detalladamente la afirmaciôn de que una red con alimentacion-ha- 
cia-delante représenta una funcion de sus entradas. Consideremos la sencilla red mos- 
unidades ocultas trada en la Figura 20.18, que tiene dos unidades de entrada, dos unidades ocultas y una 
unidad de salida. (Para mantener simplicidad, se han omitido las unidades de sesgo en 
el ejemplo.) Dado un vector de entrada x = (jq, x 2 ), las activaciones de las unidades de 
entrada se ponen a (a v a 2 ) — ( x v x 2 ) y la red calcula 

«5 = g(W 3i5 «3 + ^4,5«4) = g(W 3<5 g(W 1,3«! + W 23^) + ^4,5 g(W lA d » + W^)) (20.1 1) 

Es decir, expresando la salida de cada unidad oculta como una funcion de sus entradas, 
hemos mostrado la salida de la red como una suma, a 5 , en funcion de las entradas de la 
red. Ademâs, observamos que los pesos de la red actüan como parâmetros de la funcion; 
escribiendo W para los parâmetros, la red calcula /î w (x). Ajustando los pesos, cambia- 
mos la funcion que représenta la red. Esta es la manera en que se produce el aprendiza- 
je en las redes neuronales. 

Una red neuronal se puede usar para clasificacion o para regresion. Para clasifica- 
ciones booleanas con entradas continuas (por ejemplo, con unidades sigmoides), es tra¬ 
dicional tener una ünica unidad de salida, con un valor por encima de 0,5 interpretado 
como una clase y con un valor por debajo de 0,5 como otra. Para clasificacion en Ucla- 
scs, se puede dividir el rango de la unidad de salida en k partes, pero es mâs comün te¬ 
ner k unidades de salida separadas, donde el valor de cada una représenta la verosimilitud 
relativa de esa clase dada una entrada actual. 

Las redes neuronales con alimentacion hacia delante normalmente se organizan en 
capas capas, de forma que cada unidad recibe entradas ünicamente de las unidades de la capa 

que la précédé inmediatamente. En las dos secciones siguientes mostraremos redes de 
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una ünica capa, sin unidades ocultas, y redes multicapa, con una o mas capas de unida- 
des ocultas. 


Redes neuronales de una sola capa 

con alimentaciôn hacia delante (perceptrones) 


RED NEURONAL DE 
UNA SOLA CAPA 

PERCEPTRÔN 


Una red con todas las entradas conectadas directamente a las salidas se denomina red 
neuronal de una sola capa, o red perceptrôn. Ya que cada unidad de salida es indé¬ 
pendante de las otras (cada peso afecta solo a una de las salidas) podemos limitar nues- 
tro estudio a los perceptrones con una ünica unidad de salida, como el que se muestra 
en la Figura 20.19(a). 

Comencemos examinado el espacio de hipôtesis que un perceptrôn puede represen- 
tar. Con una funciôn de activaciôn umbral, el perceptrôn puede representar una funciôn 
booleana. Ademâs de las funciones booleanas elementales AND, OR, y NOT (Figura 
20.17), un perceptrôn puede representar algunas funciones booleanas un poco mas 
«complejas» de forma compacta. Por ejemplo, la funciôn mayoria, cuya salida es 1 solo 
si mas de la mitad de sus n entradas estân a 1, puede representarse con un perceptrôn 
con peso VF. = 1 y umbral W () = n/2. Un ârbol de decision necesitaria 0(2") nodos para 
representar esta funciôn. 

Desafortunadamente, existen muchas funciones booleanas que el perceptrôn umbral 
no puede representar. Mirando la Ecuaciôn (20.10), observamos que el perceptrôn um¬ 
bral devuelve 1 si y solo si la suma ponderada de sus entradas (incluyendo los sesgos) 
es positiva: 

X WjXj >0 o W • x > 0 

7-0 



Figura 20.19 (a) Una red perceptrôn consistente en très unidades de salida perceptrôn que com- 

parten cinco entradas. Observando una unidad de salida particular (la segunda, con un circulo en 
negro), vemos que los pesos de sus conexiones de entrada no tienen efecto en las otras unidades de 
salida. (b) Un grafico de la salida del perceptrôn de dos unidades de entrada con una funciôn de 
activaciôn sigmoide. 
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SEPARADOR LINEAL 


LINEALMENTE 

SEPARABLES 


ESPACIO DE PESOS 


La ecuacion W • x = 0 define un hiperplano en el espacio de entrada, asi que el per¬ 
ception devuelve 1 si y solo si la entrada esta en un lado de ese hiperplano. Por esta ra- 
zôn, el perceptron umbral se denomina separador Iineal. La Figura 20.20(a) y (b) 
muestra el hiperplano (una recta, en dos dimensiones) para la representaciôn median- 
te un perceptron de las funciones AND y OR de dos entradas. Los puntos negros indi- 
can un punto del espacio de entrada donde el valor de la funcion es 1, y los puntos 
blancos indican un punto donde el valor es 0. El perceptron puede representar estas fun¬ 
ciones porque existe una recta que sépara todos los puntos blancos de todos los puntos 
negros. A estas funciones se las denomina linealmente séparables. La Figura 20.20(c) 
muestra un ejemplo de una funcion que no es linealmente separable: la funcion XOR. 
Claramente, no hay manera de que el perceptron umbral aprenda esta funcion. En ge¬ 
neral, los perceptrones umbral pueden representar solo funciones linealmente sépara¬ 
bles. Estas constituyen solo una pequena fraccion de todas las funciones; el Ejercicio 
20.14 pide cuantificar esta fraccion. Los perceptrones sigmoides tienen una limitacion 
similar, en el sentido de que representan solo separadores lineales «suaves». {Véase Fi¬ 
gura 20.19(b).) 

A pesar de su poder de expresividad limitado, los perceptrones umbral tienen algu- 
nas ventajas. En particular, existe un algoritmo de aprendizaje sencillo que ajusta un per- 
ceptrôn umbral a cualquier conjunto de entrenamiento que sea linealmente separable. 
En vez de presentar este algoritmo, obtendremos un algoritmo muy relacionado para el 
aprendizaje en perceptrones sigmoides. 

La idea del algoritmo, y en realidad de muchos algoritmos para aprendizaje de re- 
des neuronales, es ajustar los pesos de la red para minimizar alguna medida del error que 
se produce con el conjunto de entrenamiento. Asi, el aprendizaje se formula como una 
büsqueda optimizada en el espacio de pesos 8 . La medida «clâsica» del error es la suma 
de los errores cuadrados, que usamos para regresion Iineal en el Apartado 20.2. El error 



Figura 20.20 Separabilidad Iineal en perceptrones umbral. Los puntos negros indican un punto 
del espacio de entrada donde el valor de la funcion es 1, y los puntos blancos indican un punto don¬ 
de el valor es 0. El perceptron devuelve 1 en la région del lado no sombreado de la lrnea. En (c), 
no existe una recta que clasifique correctamente las entradas. 


8 Véase el Apartado 4.4 para técnicas generales de optimizacion aplicables a espacios continuos. 
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cuadrado para un ünico ejemplo de entrenamiento con entrada x y valor verdadero de la 
salida y es 

E = -Err 2 = ~(y- /z w (x)) 2 

donde /? w (x) es la salida del perceptrôn para el ejemplo e y es el valor real de la salida. 

Podemos usar el método del descenso del gradiente para reducir el error cuadrado 
calculando la derivada parcial de E con respecta a cada peso. Tenemos 


dE 


= Err X 


dErr 

dWj 


=Errx ^4‘lo M,/ï ) 

= —Err X g'(in) X x ; 


donde g' es la derivada de la funcion de activaciôn 9 . En el algoritmo del descenso del 
gradiente, para reducir E, actualizamos los pesos de la siguiente manera: 


ÉPOCA 


GRADIENTE 

ESTOCÂSTICO 


VP *—Wj + aX Err X g'(in) X je. (20.12) 

donde a es la tasa de aprendizaje. Intuitivamente, esto tiene mucho sentido. Si el error 
Err = y — /z w (x) es positivo, la salida de la red es demasiado pequena y por ello los pe¬ 
sos se incrémentali para las entradas positivas y se décrémentait para las entradas nega- 
tivas. Cuando el error es negativo 10 , ocurre lo contrario. 

El algoritmo compléta se muestra en la Figura 20.21. Introduce en la red los ejem- 
plos de entrenamiento uno a uno, ajustando los pesos un poco después de cada ejemplo 
para reducir el error. Cada ciclo con todos de los ejemplos se denomina época. Las épo- 
cas se repiten hasta que se alcanza algün criterio de parada (tipicamente, que los cam- 
bios de los pesos sean muy pequenos). Otros métodos calculan el gradiente para el 
conjunto total de entrenamiento anadiendo todas las contribuciones del gradiente en la 
Ecuaciôn (20.12) antes de actualizar los pesos. El método del gradiente estocâstico se- 
lecciona ejemplos aleatoriamente del conjunto de entrenamiento en vez de hacer ciclos 
con ellos. 

La Figura 20.22 muestra la curva de aprendizaje para un perceptrôn en dos proble- 
mas diferentes. En la izquierda, se muestra la curva del aprendizaje de la funcion ma- 
yoria con 11 entradas Booleanas (es decir, la salida de la funcion es 1 si seis o mas entradas 
son 1). Como esperarfamos, el perceptrôn aprende la funcion râpidamente, ya que la fun- 
ciôn mayoria es linealmente separable. Por otro lado, el aprendizaje del ârbol de deci¬ 
sion no progresa, ya que la funcion mayoria es muy dificil (aunque no imposible) de 
representar mediante un ârbol de decision. En la derecha, tenemos el ejemplo del res¬ 
taurante. La soluciôn del problema se représenta fâcilmente con un ârbol de decision, 


9 Para la sigmoide, la derivada viene dada por g' = g( 1 — g). 

10 Para los perceptrones umbral, donde g'(in) no esta definida, la régla original de aprendizaje del perceptrôn 
desarrollada por Rosenblatt (1957) es idéntica a la Ecuaciôn (20.12) excepto que se omite g'(in). Ya que g'(in) 
es la misma para todos los pesos, su omisiôn solo cambia la magnitud y no la direccion de la actualizaciôn 
de todos los pesos para cada ejemplo. 
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funciôn APRENDiZAJE-PERCEPTRÔN(éyemp/o.y, red) devuelve perceptron como hipotesis 
entrada: ejemplos, un conjunto de ejemplos, cada uno con entrada x = x i , x n y salida y 
red, un perceptron con pesos Wj,j = 0 ... n, y funciôn de activaciôn g 

repetir 

para cada e en ejemplos hacer 
in <— (S; =0 Wj x ; [e] 

Err <x- y[ e ] - g{in) 

Wj «— IVj + aX Err X g'(in) Xx ; [e] 
hasta que se satisfaga algün criterio de parada 
devolver HiPÔTESis-RED-NEURONAs(/'c<f) 


Figura 20.21 El algoritmo de aprendizaje del descenso del gradiente para perceptrones, asumiendo 
una funciôn de activaciôn g diferenciable. Para perceptrones umbral, el factor g'(in) se omite de la 
actualizaciôn de pesos. Hipôtesis-Red-Neurona devuelve una hipotesis que calcula la salida de la 
red para cualquier ejemplo dado. 




(a) (b) 


Figura 20.22 Comparaciôn entre el rendimiento de los perceptrones y el de los ârboles de deci¬ 
sion. (a) Los perceptrones son mejores en el aprendizaje de la funciôn mayorfa con 11 entradas. 
(b) Los ârboles de decision son mejores en el aprendizaje del predicado Esperar del ejemplo del 
restaurante. 


pero no es linealmente separable. El mejor piano solo clasifica correctamente el 65 por 
ciento de los datos. 

Hasta aqul, hemos tratado los perceptrones como funciones determimsticas con sa- 
lidas errôneas posibles. También es posible interpretar la salida de un perceptron sigmoide 
como una probabilidad', especfficamente, la probabilidad de que la salida verdadera sea 
1 dadas las entradas. Con esta interpretaciôn, se puede usar la sigmoide como una re- 
presentacion canonica para distribuciones condicionadas en redes bayesianas (véase Apar- 
tado 14.3). También se puede derivar una régla de aprendizaje usando el método estândar 
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de maximizacion del logaritmo de la verosimilitud de los datos, como se describio an- 
teriormente en este capitulo. Veamos como funciona esto. 

Consideremos un ünico ejemplo de entrenamiento con valor de salida verdadera T, 
y sea p la probabilidad devuelta por el perceptron para este ejemplo. Si T = 1, la proba- 
bilidad condicional del dato es p, y si T = 0, la probabilidad condicional del dato es ( 1 
— p). Ahora podemos usar un truco sencillo para escribir el logaritmo de la verosimili¬ 
tud de una forma que sea diferenciable. El tmco es que una variable 0/1 en el exponen- 
variable indicadora te de una expresion actüa como una variable indicadora: p 1 es p si T = 1 y 1 en otro 
caso; de forma anâloga (1 — p) {1 ~ T) es (1 — p) si T = 0 y 1 en otro caso. Por ello, pode¬ 
mos escribir el logaritmo de la verosimilitud del dato como 

L — log p T (l — p) (1 ~ T) — Elog p + (1 — r)log(l — p) (20.13) 

Gracias a las propiedades de la funcion sigmoide, el gradiente se reduce a una formula 
muy sencilla (Ejercicio 20.16): 



dL 


Err X a j 


Notese que el vector de actualizaciôn de los pesos para aprendizaje por mâxima vero¬ 
similitud en los perceptrones sigmoides es esencialmente idéntico al vector de actuali¬ 
zaciôn para minimizaciôn del error cuadrado. Por ello, podemos decir que los 
perceptrones tienen una interpretaciôn probabilfstica incluso cuando la régla de apren¬ 
dizaje se obtiene desde un punto de vista deterministico. 


Redes neuronales multicapa 
con alimentaciôn hacia delante 

Ahora consideraremos redes con unidades ocultas. El caso mas comün supone una üni- 
ca capa oculta 11 , como en la Figura 20.24. La ventaja de anadir capas ocultas es que se 
amplfa el espacio de hipotesis que puede representar la red. Piense en cada unidad ocul¬ 
ta como un perceptron que représenta una funcion umbral suave en el espacio de entra- 
das, como se muestra en la Figura 20.19(b). Entonces, piense en una unidad de salida 
como una combinacion lineal con umbral suave de varias de estas funciones. Por ejem¬ 
plo, anadiendo dos funciones de umbral suave que se oponen y pasando un umbral al 
resultado, podemos obtener una funcion «cresta» como se muestra en la Figura 20.23(a). 
Combinando dos de estas crestas, haciendo un ângulo recto entre ellas (es decir, com- 
binando la salida de cuatro unidades ocultas), obtenemos un «montfculo» como se 
muestra en la Figura 20.23(b). 

Con mas unidades ocultas, podemos producir mas montfculos de diferentes tama- 
nos en mas lugares. De hecho, con una ünica capa oculta suficientemente grande, es po- 
sible representar cualquier funcion continua de las entradas con una précision arbitraria; 


11 Algunas personas la denominan red de tres-capas, y algunas la denominan red de dos-capas (porque las 
entradas no son unidades «reales»), Evitaremos confusiones y la denominaremos «red de una ünica capa 
oculta». 
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M X V X 2> 



(a) 


h w (x v x 2 ) 



(b) 


Figura 20.23 (a) El resultado de combinar dos funciones de umbral suave que se oponen para 

producir una cresta. (b) El resultado de combinar dos crestas para producir un monticulo. 


con dos capas, incluso se pueden representar funciones discontinuas 12 . Desafortunada- 
mente, para una estructura de red determinada, es difîcil caracterizar exactamente qué 
funciones pueden ser representadas y cuâles no. 

Suponga que queremos construit' una red con una capa oculta para el problema del 
restaurante. Tenemos 10 atributos que describen cada ejemplo, as! que necesitamos 10 
unidades de entrada. / Cuântas unidades ocultas se necesitan? En la Figura 20.24, se mues- 
tra una red con cuatro unidades ocultas que résulta ser apropiada para este problema. El 
problema de escoger el numéro adecuado de unidades ocultas con antelaciôn todavia no 
esta bien comprendido. (Véase Apartado 20.5.) 



Figura 20.24 Una red neuronal multicapa con una capa oculta y 10 entradas, adecuada para el 
problema del restaurante. 


12 La prueba es compleja, pero el punto principal es que el numéro requerido de unidades ocultas crece ex- 
ponencialmente con respecta al numéro de entradas. Por ejemplo, se necesitan 2"In unidades ocultas para co- 
difïcar todas las funciones booleanas de n entradas. 
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PROPAGAR HACIA 
ATRÂS 


Los algoritmos de aprendizaje para redes multicapa son similares al algoritmo 
de aprendizaje del perceptrôn mostrado en la Figura 20.21. Una pequena diferencia 
es que podemos tener varias salidas, asi que tenemos un vector de salida h w (x) en 
vez de un ünico valor, y cada ejemplo tiene un vector de salida y. La mayor dife¬ 
rencia es que, mientras que el error y — h w en la capa de salida es claro, el error en 
las capas ocultas no se conoce, porque los datos de entrenamiento no dicen cuâl es 
el valor que han de tomar los nodos ocultos. Résulta que podemos propagar hacia 
atrâs el error desde la capa de salida a las capas ocultas. El proceso de propagaciôn- 
hacia-atrâs proviene directamente a partir del gradiente del error total. Primero, 
describiremos el proceso con una justificacion intuitiva; luego, veremos como se ob- 
tiene. 

En la capa de salida, la régla de actualizaciôn de pesos es idéntica a la Ecuaciôn 
(20.12). Tenemos multiples unidades de salida, asi sera Err l la i-ésima componente del 
vector de error y — h w . También sera conveniente définir un error modificado A,- = Err i 
X g'{in), de forma que la régla de actualizaciôn de los pesos se convierte en 

VF,-, <-W.TaX <7. X A, (20.14) 

J ’ 1 JJ 1 

Para actualizar las conexiones entre las unidades de entrada y las unidades ocultas ne- 
cesitamos définir una cantidad anâloga al término que représenta el error para los nodos 
de salida. Aqui es donde podemos hacer la propagacion hacia atrâs del error. La idea es 
que el nodo oculto j es «responsable» de una fracciôn del error A, en cada nodo de sali¬ 
da al que esta conectado. Asi, los valores de A, se dividen de acuerdo con la fuerza de 
la conexiôn entre el nodo oculto y el nodo de salida, y se propagan hacia atrâs para pro- 
porcionar los valores de A. en la capa oculta. La régla de propagacion para los valores 
de A es la siguiente: 

A ] =g'{in j )J J W j ,A i (20.15) 

i 

Ahora la régla de actualizaciôn de los pesos entre la entradas y la capa oculta es casi 
idéntica a la régla de actualizaciôn de la capa de salida: 

W kJ «— W kJ + aXa k X Aj. 

El proceso de propagacion hacia atrâs puede resumirse de la siguiente manera: 

• Computar los valores A para las unidades de salida, usando el error observado. 

• Comenzando con la capa oculta, repetir lo siguiente para cada capa en la red, has- 
ta que se alcance la primera capa oculta: 

— Propagar los valores A hacia atrâs a la capa anterior. 

— Actualizar los pesos entre las dos capas. 

El algoritmo detallado se muestra en la Figura 20.25. 

Para los aficionados a las matemâticas, obtendremos las ecuaciones de la propaga- 
ciôn hacia atrâs desde el principio. El error cuadrado para un ünico ejemplo se define 

E = -2(y ; - a) 2 


como 
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funciôn APRENDiZAJE-PROP-ATRÂs(e7É , »7p/cw, red) devuelve una red neuronal 

entrada: ejemplos, un conjunto de ejemplos, cada uno con vector de entrada x y vector de 
salida y red, una red multicapa con L capas, pesos Wjj, funciôn de activaciôn g 

repetir 

para cada e en ejemplos hacer 

para cada nodo j en la capa de entrada hacer a j <— Xj[e\ 
para € = 2 a M hacer 

in i <— Sy Wjjüj 

a, «- g (in,) 

para cada nodo i en la capa de salida hacer 
A,<— g '(in) X (y,{e\ - a) 
para ( = M — 1 a 1 hacer 

para cada nodo j en la capa £ hacer 
b‘ j +-g'(in)'Z i W jA A, 
para cada nodo i en la capa £+ 1 hacer 
Wj , <—Wjj + aX cijX A,- 

hasta que se satisfaga algün criterio de parada 
devolver Hipôtesis-Red-Neurona(/-cûO 


Figura 20.25 El algoritmo de propagaciôn hacia atrâs para aprendizaje en redes multicapa. 


donde la suma se realiza para todos los nodos de la capa de salida. Para obtener el gra- 
diente respecto al peso especlfico W j , en la capa de salida, necesitamos solo desarrollar 
la activaciôn a f , ya que todos los otros términos del sumatorio no dependen de W j f. 


dE 


da t 

(yi ~ ai) ~dw^ = ~ (yi 


ai) 


dgjinj) 

dW hi 


Birij d 

(y,. - aiïg’Un,)— = -(y, - ajg’dn,) — 

(V; - a t )g\in,)aj = -a ; A, 



con A ( definido como antes. Para obtener el gradiente respecto a los pesos W kj que co- 
nectan la capa de entrada con la capa oculta, tenemos que mantener el sumatorio para 
todo i, ya que cada valor de salida a, puede verse afectado por cambios en W kj . También 
tenemos que desarrollar las activaciones a ; . Mostraremos la derivaciôn en mas detalle, 
ya que es interesante ver como el operador de derivada se propaga hacia atrâs por la red: 


dE 


„ da „ de(in) 

= - a,)~ 


dW t 


kj 


din. 


-S(y,- - a i)s\ini)—^- = -2 A, 


dW, 


k,j 


dW kJ 

Âê w »‘') 


da 

-y a .ip . —■— 
i 1 hl sw kJ 


-SA { W, 


dgjinj) 

Wk,J 
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CURVA DE 
ENTRENAMIENTO 


= -ZA,»'. 

i 

= “SA, IV,, 

i 

= -2A,rç. 

i 


din , 

6 7 aw; 




g\in\ 


dW t 


k.j \ 

g\in)a k = - 


a A 


donde A.se define como anteriormente. Asi, conseguimos las réglas de actualizaciôn ob- 
tenidas anteriormente a partir de consideraciones intuitivas. Esta también claro que el 
proceso puede continuarse para redes con mas de una capa oculta, lo cual justifica el al- 
goritmo general dado en la Figura 20.25. 

Habiendo realizado todo el desarrollo matemâtico (o pasândolo por alto), veamos como 
se aplica una red con una ünica capa-oculta al problema del restaurante. En la Figura 20.26 
mostramos dos curvas. La primera es una curva de entrenamiento, que muestra el error 
cuadrado medio para un conjunto de entrenamiento de 100 ejemplos del restaurante du¬ 
rante el proceso de actualizaciôn de pesos. Esto demuestra que la red en realidad converge 
a un ajuste perfecto de los datos de entrenamiento. La segunda curva es la curva de apren- 
dizaje estândar para los datos del restaurante. La red neuronal aprende bien, aunque no 
tan râpido como el aprendizaje con ârboles de decision; esto quizâ no es sorprendente, 
porque inicialmente los datos fueron generados a partir de un ârbol de decision sencillo. 

Por supuesto, las redes neuronales son capaces de hacer tareas de aprendizaje mas 
complejas, aunque se debe decir que es necesaria una cierta cantidad de trabajo para con- 
seguir la estmctura correcta de la red y para conseguir la convergencia a algo cercano al 
ôptimo global del espacio de pesos. Existen literalmente decenas de miles de aplicacio- 
nes de redes neuronales publicadas. El Apartado 20.7 muestra una de estas aplicaciones 
mas detalladamente. 




Figura 20.26 (a) Curva de entrenamiento mostrando la réduction graduai del error a medida que 

los pesos se modifican a través de varias épocas, para un conjunto dado de ejemplos del dominio 
del restaurante, (b) Curvas de aprendizaje comparativas que muestran que el aprendizaje de ârbo¬ 
les de decision es levemente mejor que la propagation hacia atrâs en una red multicapa. 
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DANO CEREBRAL 
ÔPTIMO 


TILING 


20.6 


Aprendizaje de la estructura de las redes neuronales 

Hasta aqui, hemos considerado el problema del aprendizaje de los pesos, dada una estruc- 
tura fija de la red; al igual que con redes bayesianas, también necesitamos comprender como 
encontrar la mejor estructura de la red. Si elegimos una red que es demasiado grande, sera 
capaz de memorizar todos los ejemplos formando una gran tabla de büsqueda, pero no ge- 
neralizarâ necesariamente bien para entradas que no se han visto antcriormcntc 1 '. En otras 
palabras, como todos los modelos estocâsticos, las redes neuronales son sujeto de sobre- 
ajuste cuando hay demasiados paramétras en el modelo. Vimos esto en la Figura 18.1 (Apar- 
tado 18.3), donde los modelos con muchos paramétras en (b) y en (c) se ajustan a todos los 
datos, pero no generalizarian tan bien como los modelos de pocos paramétras en (a) y (d). 

Si nos centramos en redes totalmente conectadas, las ünicas elecciones por las que 
nos podemos preocupar son el nümero de capas ocultas y su tamano. El enfoque mas 
usual es intentar varias y quedarnos con la mejor. Se necesitan las técnicas de valida¬ 
tion cruzada del Capitulo 18 si queremos evitar el peeking del mejor conjunto. Es de- 
cir, elegimos la arquitectura de la red que proporciona la mayor précision de predicciôn 
en los conjuntos de validacion. 

Si queremos considerar redes que no estân conectadas en su totalidad, necesitamos en¬ 
contrar algün método de büsqueda efectivo a través del gran espacio de topologias de po- 
sibles conexiones. El algoritmo del dano cérébral ôptimo (optimal brain damage ) comienza 
con una red totalmente conectada y va eliminando conexiones. Después de que la red esta 
entrenada por primera vez, un enfoque teorico de informacion identifica una seleccion op- 
tima de las conexiones que pueden ser eliminadas. La red vuelve a entrenarse, y si su ren- 
dimiento no se ve decrementado se repite el proceso. Ademâs de la eliminacion de 
conexiones, también es posible eliminar unidades que no contribuyen mucho al resultado. 

Se han propuesto varios algoritmos para conseguir una red mas grande, aumentando 
una red mas pequena. Uno de ellos, el algoritmo «Tiling», se parece al aprendizaje de lis¬ 
tas de decision. La idea es comenzar con una ünica unidad que se comporta de la mejor 
forma posible para devolver la salida correcta para tantos ejemplos de entrenamiento como 
sea posible. Se anaden mas unidades para corregir los ejemplos en los que la primera uni¬ 
dad fallo. El algoritmo anade solo las unidades necesarias para cubrir todos los ejemplos. 


Mâquinas nücleo 


Nuestra discusiôn sobre redes neuronales nos ha dejado con un dilema. Las redes de una 
ünica capa tienen un algoritmo de aprendizaje mas simple y eficiente, pero tienen un po- 
der de expresividad muy limitado (solo pueden aprender fronteras lineales de decision 
en el espacio de entradas). Por otro lado, las redes multicapa son mas expresivas (pue- 


13 Se ha observado que redes muy grandes hacen generalizaciones correctas mientras que los pesos se man- 
tienen pequenos. Esta restriccion mantiene los valores de activacion en la région lineal de la funcion sigmoide 
g(x) donde x esta cercana a cero. Esto significa que la red se comporta como una funcion lineal (Ejercicio 
20.17) con pocos paramètres. 
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MÂQUINA DE 
VECTORES SOPORTE 

MÂQUINA NÜCLEO 


den representar funciones no lineales generales) pero son muy dificiles de entrenar de- 
bido a la abundancia de mmimos locales y la gran dimension del espacio de pesos. En 
esta secciôn, exploraremos una familia de métodos de aprendizaje, relativamente nue- 
vos, denominados maquillas de vectores soporte (SVMs), o mas generalmente, mâ- 
quinas nûcleo. Hasta cierto punto, las mâquinas nücleo nos proporcionan lo mejor de 
ambos mundos. Es decir, estos métodos usan un algoritmo de aprendizaje eficiente y pue- 
den representar funciones no lineales complejas. 

El tratamiento completo de las mâquinas nücleo esta fuera del alcance de este libro, 
pero podemos ilustrar la idea principal a través de un ejemplo. La Figura 20.27(a) mues- 
tra un espacio de entrada bidimensional definido por atributos x = (x v x,), con ejemplos 
positivos (y = +1) dentro de un circulo y ejemplos negativos (y = — 1) fuera. Obviamen- 
te, no existe ningün separador lineal para este problema. Ahora, suponga que expresa- 
mos de nuevo los datos de entrada usando algunas caracterfsticas computadas, es decir, 
hacemos corresponder cada vector de entrada x con un nuevo vector de valores de ca- 
racteristicas, F(x). En particular, usaremos las très caracterfsticas siguientes 

fi ~ x i » fi ~ x i > f} ~ ■sffx l x 2 (20.16) 

Veremos en breve de donde vienen, pero ahora, veamos qué ocurre. La Figura 20.27(b) 
muestra los datos en el nuevo espacio tridimensional definido por las très caracteristi- 
cas; jlos datos son linealmente séparables en el espacio! Este fenomeno es normalmente 
bastante general: si los datos se hacen corresponder a un espacio con una dimension su- 
ficientemente alta, serân siempre linealmente séparables. Aqui, hemos usado solo très 




Figura 20.27 (a) Un entrenamiento en dos dimensiones con ejemplos positivos como circulos ne- 

gros y ejemplos negativos como circulos blancos. La frontera de la decision verdadera, xj + xJ ^ 
1, también se muestra. (b) Los mismos datos después de hacer la correspondencia a un espacio de 
entrada de très dimensiones (jCj , x\, V 2xjX 2 ). La frontera de decision circular en (a) se convierte en 
una frontera de decision lineal en très dimensiones. 
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MARGEN 


PROGRAMACIÔN 

CUADRÂTICA 


dimensiones 14 , pero si tenemos N puntos de los datos, excepto en casos especiales, se- 
rân siempre séparables en un espacio de dimension N -1 o mayor (Ejercicio 20.21). 

Luego, /es asi? /Ünicamcnte tenemos que producir cantidades de caracteristicas com- 
putadas y luego encontrar un separador lineal en el espacio correspondiente de alta di¬ 
mension? Desafortunadamente, no es tan fâcil. Recuerde que un separador lineal en un 
espacio de d dimensiones se define a través de una ecuaciôn con d paramétras, asi que 
hay un serio peligro de sobreajuste de los datos si d~N, donde N es el nümero de pun¬ 
tos de los datos. (Esto es como el sobreajuste de datos con un polinomio de grado alto, 
que se discutiô en el Capitulo 18.) Por esta razôn, las mâquinas nücleo normalmente en- 
cuentran el separador lineal ôptimo, el que da lugar a un margen mas grande entre él y 
los ejemplos positivos en un lado y los ejemplos negativos en el otro. (Véase la Figura 
20.28.) Se puede mostrar, usando argumentos de la teoria computacional del aprendi- 
zaje (Apartado 18.5), que este separador tiene propiedades deseables en términos de ge- 
neralizaciôn robusta para nuevos ejemplos. 

Ahora, /cômo encontraremos este separador? Résulta que esto es un problema de 
optimizaciôn de programaciôn cuadrâtica. Suponga que tenemos ejemplos x ( . con cla- 
sificaciones y i = ±1 y queremos encontrar un separador ôptimo en el espacio de entra- 
da; enfonces el problema de programaciôn cuadrâtica consiste en encontrar los valores 
del paramétra a que maximizan la expresiôn 


^a i --J J a i a i y i y j (x i -x j ) 

l Z l,j 


(20.17) 
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Figura 20.28 Un piano, proyectado en la primera de la dos dimensiones, del separador ôptimo 
mostrado en la Figura 20.27(b). El separador se muestra como una linea realzada, con los puntos 
mas cercanos (los vectores soporte) marcados con circulos. El margen es la separaciôn entre los 
ejemplos positivos y los ejemplos negativos. 


14 El lector habrâ notado que podrfamos haber usado sôlo/j y f 2 , pero la correspondencia en 3D ilustra me- 
jor la idea. 
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sujeta a las restricciones a i > 0 y ^ j a i y i = 0. Aunque la derivada de esta expresion no es 
crucial para la historia, hace que tenga dos propiedades importantes. Primero, la expre- 
siôn tiene un ünico mâximo global que puede encontrarse de forma eficiente. Segundo, 
los datos entran en la expresion solo en forma de productos de pares de puntos. Esta se- 
gunda propiedad es también verdadera en la ecuacion para el propio separador; una vez 
que ha sido calculado el optimo a , es 


h(x) = signoj 'Zar y,(x, • x,.) 


(20.18) 


Una ültima propiedad importante del separador optimo definido por esta ecuacion es que 
los pesos a i asociados con cada punto de los datos son cero excepto para aquellos pun¬ 
tos mas cercanos al separador, los denominados vectores soporte. (Se denominan asi 
porque «soportan» al piano separador.) Debido a que normalmente existen menos vec¬ 
tores soporte que puntos de los datos, el numéro efectivo de parâmetros que define el 
separador optimo es normalmente mas pequeno que N. 

Normalmente no esperariamos encontrar un separador lineal en el espacio de entra- 
da x, pero es fâcil ver que podemos encontrar separadores lineales en el espacio de ca- 
racteristicas de alta dimension F(x) simplemente reemplazando x ( • x en la Ecuacion 
(20.17) por F(x ; ) • F(x ; ). Esto por si mismo no es remarcable (reemplazar x por F(x) en 
cualquier algoritmo de aprendizaje tiene el efecto que se necesita) pero, el producto tie¬ 
ne algunas propiedades especiales. Résulta que F(x ; ) • F(x.) a menudo puede operarse 
sin calcular primero F para cada punto. En nuestro espacio de caracteristicas de très di- 
mensiones definido por la Ecuacion (20.16), un poco de âlgebra muestra que 

F(x,) • F(x.) = (x, • x/ 

La expresion (x ; • x.) 2 se dénomma una funciôn nucleo, que normalmente se escribe como 
F(x„ x). En el contexto de las mâquinas nucleo es una funciôn que se puede aplicar a 
pares de datos de entrada para evaluar los productos en el espacio de caracteristicas co- 
rrespondiente. Asi que, podemos restablecer la pretensiôn del principio de este pârrafo 
de la siguiente manera: podemos encontrar separadores lineales en el espacio de carac¬ 
teristicas de alta dimension F(x) simplemente remplazando x ; • x. en la Ecuacion (20.17) 
por una funciôn nucleo K(x t , x ). Asi, podemos aprender en el espacio de alta dimension, 
pero calculamos solo funciones nücleo en vez del conjunto total de caracteristicas para 
cada punto de los datos. 

El siguiente paso, que ahora deberia ser obvio, es ver que no hay nada especial en 
el nücleo K(x t , x ; ) = (x ; • x^) 2 . Corresponde a un espacio de caracteristicas particular de 
dimension alta, pero otras funciones nücleo corresponden a otros espacios de caracte¬ 
risticas. Unresultado venerable en matemâticas, el teorema de Mercer (1909), dice que 
cualquier funciôn nücleo «razonable» 15 corresponde a algûn espacio de caracteristicas. 
Estos espacios de caracteristicas pueden ser muy grandes, incluso para nücleos que pa- 
recen simples. Por ejemplo, el nucleo polinômico, K(x t , x) = (1 +x i . • x-f, correspon¬ 
de a un espacio de caracteristicas cuya dimension es exponencial en d. Usando dichos 


15 Aquf, «razonable» signifïca que la matriz K ;/ = Ktx^xj es definida positiva; consultar Apéndice A. 
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VERSION CON 
NÜCLEOS 


nücleos en la Ecuacion (20.17), los separadores lineales ôptimos se pueden encontrar 
eficientemente en espacios de caractensîicas con billones (o, en algunos casos, infini- 
tamente mâs) de dimensiones. Cuando los separadores lineales résultantes se proyectan 
de vuelta al espacio de entrada original, pueden corresponder a fronteras no lineales ar- 
bitrariamente onduladas entre los ejemplos positivos y negativos. 

En la secciôn previa se mencionô que las mâquinas nücleo destacan en el reconoci- 
miento de digitos escritos a mano: estân adaptândose râpidamente para otras aplicacio- 
nes, especialmente para aquellas con muchas caracteristicas de entrada. Como parte de 
este proceso, se han disenado muchos nücleos nuevos para trabajar con cadenas, ârbo- 
les y otros tipos de datos no numéricos. También se ha observado que los métodos nü¬ 
cleo se pueden aplicar no solo con algoritmos de aprendizaje que encuentran separadores 
lineales ôptimos, sino también con cualquier otro algoritmo que pueda reformularse para 
trabajar solo con productos de pares de puntos de los datos, como en la Ecuacion 20.17 
y 20.18. Una vez que esto se hace, el producto se reemplaza por una funciôn nücleo y 
tenemos una version del algoritmo con nücleos. Esto se puede hacer fâcilmente para el 
aprendizaje del /.-vecinos-mas-ccrcanos y para el aprendizaje del perceptrôn, entre otros. 


20.7 Caso de estudio: reconocedor de digitos 
escritos a mano 


Reconocer digitos escritos a mano es un problema importante en muchas aplicaciones, 
incluyendo la ordenaciôn automâtica de cartas por el côdigo postal, la lectura automâti- 
ca de ingresos de chèques y de impuestos, y la entrada manual de datos en computado- 
res. Es un area donde se han hecho progresos râpidos, en parte debido a algoritmos de 
aprendizaje mejores y en parte debido a la disponibilidad de mejores conjuntos de en- 
trenamiento. El Instituto Nacional de Ciencia y Tecnologia de Estados Unidos (NIST) 
ha archivado una base de datos de 60.000 digitos etiquetados, cada uno de 20 X 20 = 400 
pixeles con una escala de grises de 8-bits. Se ha convertido en uno de los problemas es- 
tândar de las herramientas para comparar nuevos algoritmos de aprendizaje. Algunos 
ejemplos de digitos se muestran en la Figura 20.29. 
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Figura 20.29 Ejemplos de la base de datos NIST de digitos escritos a mano. La fila de arriba: 
ejemplos de digitos 0-9 que son faciles de identificar. La fila de abajo: ejemplos mâs diflciles de 
los mismos digitos. 
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MÂQUINA VIRTUAL DE 
VECTORES SOPORTE 


Se han intentado distintos enfoques de aprendizaje. Uno de los primeras, y proba- 
blemente el mas sencillo, es el clasificador de 3 vecinos mas cercanos, que también tie- 
ne la ventaja de que no requiere tiempo de entrenamiento. Un algoritmo basado en 
memoria, sin embargo, debe almacenar las 60.000 imâgenes, y su tiempo de ejecuciôn 
es lento. Se consiguio una tasa de error del 2,4 por ciento. 

Para este problema se disenô una red neuronal con una unica capa oculta con 400 
unidades de entrada (una por pixel) y 10 unidades de salida (una por clase). Usando va- 
lidaciôn-cruzada, se encontre que aproximadamente 300 unidades ocultas proporciona- 
ban el mejor funcionamiento. Con total interconexion entre capas, hubo un total de 
123.300 pesos. Esta red consiguio una tasa de error del 1,6 por ciento. 

Una sérié de redes neuronales especializadas denominadas LeNet fueron ideadas 
para aprovechar la estructura del problema (que la entrada consiste en pixeles de un vec- 
tor bidimensional, y que pequenos cambios en la posiciôn o en la inclinacion de la ima- 
gen carecen de importancia). Cada red tiene una capa de entrada de 32 X 32 unidades, 
sobre las cuales los 20 X 20 pixeles se centraron tal que cada unidad de entrada se pré¬ 
senta con una vecindad local de pixeles. Esto se continué con très capas de unidades ocul¬ 
tas. Cada capa consistia en varios niveles de n X n vectores, donde cada n es mas 
pequeno que el de la capa previa, de forma que la red va reduciendo la entrada, y se obli- 
ga a que los pesos de cada unidad en un nivel sean idénticos, de manera que el nivel esta 
actuando como un detector de caracteristicas: puede distinguir una caracteristica tal como 
una linea vertical larga o un arco semi-circular corto. La capa de salida tiene 10 unida¬ 
des. Se probaron muchas versiones de esta arquitectura; una representativa ténia capas 
ocultas con 768, 192 y 30 unidades, respectivamente. El conjunto de entrenamiento se 
aumentô aplicando transformaciones afines a las entradas reales: trasladando, rotando 
un poco y escalando la imagen. (Por supuesto, las transformaciones tienen que ser pe- 
quenas, o sino ; un 6 se transformarâ en un 9!) La mejor tasa de error conseguida por Le¬ 
Net fue del 0,9 por ciento. 

Una red neuronal potenciada ( boosted ) combina très copias de la arquitectura de 
LeNet. La segunda se entrena a partir de una mezcla de patrones en los que la primera 
fallaba en un 50 por ciento, y la tercera se entrena con patrones para los cuales las dos 
primeras no estuvieron de acuerdo. Durante el test, las très redes votaban con sus pesos 
por cada uno de los 10 digitos, y las puntuaciones se sumaban para determinar el gana- 
dor. La tasa de error fue del 0,7 por ciento. 

Una mâquina de vectores soporte (véase el Apartado 20.6) con 25.000 vectores so- 
porte consiguio una tasa de error del 1,1 por ciento. Esto es remarcable ya que la técni- 
ca SVM, al igual que el enfoque sencillo de vecinos-mâs-cercanos, no requiere casi 
esfuerzo o experimentos reiterados por parte del desarrollador, sin embargo se acercô al 
funcionamiento de LeNet, que supuso anos de desarrollo. En realidad, las mâquinas de 
vectores soporte no hacen uso de la estmctura del problema, y actuarian de igual forma 
si los pixeles se presentaran en un orden permutado. 

Una mâquina Virtual de vectores soporte comienza con una SVM regular y lue- 
go la mejora con una técnica que se disena para aprovechar la estructura del proble¬ 
ma. En vez de permitir productos de todos los pares de pixeles, este enfoque se 
concentra en los nücleos formados a partir de pares de pixeles cercanos. También au- 
menta el conjunto de entrenamiento con transformaciones de los ejemplos, como Le- 
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Net. Una SVM Virtual consiguio la mejor tasa de error conseguida hasta la fecha, 0,56 
por ciento. 

El encaje de formas (shape matching) es una técnica de vision computacional que 
se usa para detectar las partes que se corresponden de dos imâgenes diferentes de obje- 
tos. (Véase el Capitulo 24.) La idea es escoger un conjunto de puntos en cada una de las 
dos imâgenes, y luego calcular qué punto de la segunda imagen se corresponde con cada 
punto de la primera. A partir de esto, se calcula una transformacion entre las imâgenes. 
La transformacion nos proporciona una medida de la distancia entre las imâgenes. La 
medida de la distancia estâ mejor justificada que contar el numéro de pixeles diferen¬ 
tes, y résulta que un algoritmo de 3 vecinos mâs cercanos que usa esta medida de dis¬ 
tancia funciona bastante bien. Entrenando con solo 20.000 de los 60.000 digitos, y 
usando 100 puntos de prueba por imagen, extraidos de un detector de bordes Canny, un 
clasificador de encaje de formas consigue una tasa de error del 0,63 por ciento. 

Se estima que los humanos tienen una tasa de error del 0,2 por ciento aproximada- 
mente en este problema. Esta cifra es algo sospechosa porque a los humanos no se les 
ha puesto a prueba tan intensamente como a los algoritmos de aprendizaje automâtico. 
En un conjunto similar de datos de digitos del Servicio Postal de Estados Unidos, los 
errores de los humanos fueron de un 2,5 por ciento. 

La siguiente figura résumé las tasas de error, tiempo de desarrollo, memoria requeri- 
da y cantidad de tiempo de entrenamiento para los siete algoritmos que se han discutido. 
También anade otra medida, el porcentaje de digitos que deben rechazarse para conseguir 
un error del 0,5 por ciento. Por ejemplo, si a la SVM se le permite rechazar el 1,8 por cien¬ 
to de la entrada (es decir, dejar que otro sistema haga el juicio final) su tasa de error sobre 
el 98,2 por ciento restante de la entrada se reduce de 1,1 por ciento a 0,5 por ciento. 

La siguiente tabla résumé la tasa de error y algunas de las otras caracteristicas de las 
siete técnicas discutidas. 



3 NN 

300 ocultas 

LeNet 

LeNet 

potenciada 

SVM 

SVM 

Virtual 

Encaje 

formas 

Tasa de error (pet.) 

2,4 

1,6 

0,9 

0,7 

1,1 

0,56 

0,63 

T. Ejec. (msg/digito) 

1000 

10 

30 

50 

2000 

200 


M. Requerida (Mbyte) 

12 

0,49 

0,012 

0,21 

11 



T. entrenamiento (dias) 

0 

7 

14 

30 

10 



% rechazado para un error del 0,5% 

8,1 

3,2 

1,8 

0,5 

1,8 




20.8 Resumen 


Los métodos estadisticos de aprendizaje van desde el simple câlculo de médias hasta la 
construccion de modelos complejos taies como las redes bayesianas o las redes neuro¬ 
nales. Tienen aplicaciôn en Informâtica, Ingenieria, Neurobiologia, Psicologia y Lisica. 
En este capitulo se han presentado algunas de las ideas bâsicas y se ha proporcionado 
una idea de la base matemâtica. Los principales puntos son los siguientes: 
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• Los métodos de aprendizaje bayesiano formulan el aprendizaje como una forma 
de inferencia probabilistica, usando las observaciones para actualizar una distri¬ 
bucion previa sobre las hipotesis. Este enfoque implémenta bien la navaja de Oc- 
kham, pero se vuelve râpidamente intratable para espacios de hipotesis complejos. 

• El aprendizaje mâximo a posteriori (MAP) selecciona una ünica hipotesis mas pro¬ 
bable dados los datos. También se usa la hipotesis a priori y el método es a me- 
nudo mas tratable que el aprendizaje Bayesiano completo. 

• El aprendizaje de màxima verosimilitud simplemente selecciona la hipotesis 
que maximiza la verosimilitud de los datos; es équivalente al aprendizaje MAP 
con una distribucion uniforme a priori. En casos sencillos taies como regresion 
lineal y redes bayesianas completamente observables, las soluciones de mâxi- 
ma verosimilitud pueden encontrarse fâcilmente de una forma cerrada. El 
aprendizaje bayesiano simple es una técnica particularmente efectiva que se 
amplia bien. 

• Cuando algunas variables estân ocultas, las soluciones locales de mâxima verosi¬ 
militud se pueden encontrar usando el algoritmo EM. Las aplicaciones incluyen 
agrupamiento usando mezclas de gaussianas, aprendizaje en redes bayesianas, y 
aprendizaje de modelos de Markov ocultos. 

• El aprendizaje de la estructura de redes bayesianas es un ejemplo de selecciôn del 
modelo. Esto normalmente requiere una büsqueda discreta en el espacio de las es- 
tructuras. Se requieren algunos métodos para llegar a un compromiso entre la com- 
plejidad del modelo y el grado de ajuste. 

• Los modelos basados en instancias representan una distribucion usando la co- 
leccion de ejemplos de entrenamiento. Por ello, el nümero de parâmetros crece 
con el conjunto de entrenamiento. Los métodos de vecinos mas cercanos bus- 
can la instancia mas cercana al punto en cuestion, mientras que los métodos nu- 
cleo forman una combinacion ponderada de las distancias entre todas las 
instancias. 

• Las redes neuronales son funciones complejas no lineales con muchos parâme¬ 
tros. Sus parâmetros pueden aprenderse a partir de datos con ruido y se han usa- 
do para miles de aplicaciones. 

• Un perceptrôn es una red neuronal con alimentacion hacia delante sin unidades 
ocultas que puede representar solo funciones linealmente séparables. Si los da¬ 
tos son linealmente séparables, se puede usar una régla de actualizacion de pesos 
sencilla para ajustar exactamente los datos. 

• Las redes neuronales multicapa con alimentacion hacia delante pueden repre¬ 
sentar cualquier funcion, con suficientes unidades. El algoritmo de propagaciôn 
hacia atrâs (bock-propagation) implémenta un descenso del gradiente en el es¬ 
pacio de parâmetros para minimizar el error de la salida. 

El aprendizaje estadistico continua siendo un ârea de investigaciôn muy activa. Se han 
hecho énormes avances tanto en la teoria como en la prâctica, hasta el punto de que es 
posible aprender casi cualquier modelo para el cual sea posible inferencia aproximada 
o exacta. 
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Notas bibliogrAficas e histôricas 

La aplicaciôn de técnicas estadisticas de aprendizaje en IA fue un area activa de in- 
vestigacion en los primeros anos (véase Duda y Hart, 1973) pero se fue separando de 
la principal corriente de IA, ya que este campo se concentré en métodos simbolicos. 
Continué en varias formas (algunas explicitamente probabilisticas, y otras no) en are¬ 
as taies como reconocimiento de patrones (Devroye et al., 1996) y recuperaciôn de 
informaciôn (Salton y McGill, 1983). Un resurgimiento del interés ocurriô después de 
la introducciôn de los modelos de redes bayesianas a ültimos de la década de los 80; 
aproximadamente al mismo tiempo, comenzô a surgir una vision estadistica del apren¬ 
dizaje de redes neuronales. A ültimos de la década de los 90, hubo una convergencia 
notable de interés en el aprendizaje automâtico, en estadistica, y en redes neuronales, 
centradas en métodos para la creaciôn de grandes modelos probabilisticos a partir de 
los datos. 

El modelo de Bayes simple es una de las formas mas antigua y sencilla de redes ba¬ 
yesianas de la década de los 50. Sus origenes, mencionados en las notas del final del Ca- 
pitulo 13, estân en parte explicados por Domingos y Pazzani (1997). Una forma 
potenciada del aprendizaje de Bayes simple ganô la primera copa KDD en la competi- 
ciôn de minerfa de datos (Elkan, 1997). Heckerman (1998) proporciona una excelente 
introducciôn al problema general de aprendizaje de redes bayesianas. El aprendizaje de 
paramétras bayesianos con distribuciones Dirichlet a priori para redes bayesianas se dis- 
cutié en Spiegelhalter et ai. (1993). El paquete de software BUGS (Gilks et al., 1994) 
incorpora muchas de estas ideas y proporciona una herramienta muy potente para la for- 
mulacién y el aprendizaje de modelos probabilisticos complejos. Los primeros algorit- 
mos de aprendizaje de la estructura de una red bayesiana usaban tests de independencia 
condicional (Pearl, 1988; Pearl y Verma, 1991). Spirtes et al. (1993) desarrollô un en- 
foque comprensivo y el paquete Tetrad para aprendizaje en redes bayesianas usando 
ideas similares. Las mejoras algoritmicas les condujeron a una clara Victoria en la copa 
KDD de 2001 en la competiciôn de mineria de datos por un método de aprendizaje de 
redes bayesianas (Cheng et al., 2002). (; Aqui la tarea especifica fue un problema bioin- 
formâtico con 139.351 caracteristicas!). Cooper y Herskovits (1992) desarrollaron un en- 
foque de aprendizaje de la estructura basado en maximizar la verosimilitud. Este enfoque 
fue mejorado por Heckerman et al. (1994). Friedman y Goldszmidt (1996) senalaron la 
influencia de la representacién de las distribuciones locales condicionales en la estruc¬ 
tura aprendida. 

El problema general del aprendizaje de los modelos probabilisticos con variables ocul- 
tas y falta de datos fue abarcado por el algoritmo EM (Dempster et al., 1977), el cual 
fue abstraido a partir de varios métodos existentes, incluido el algoritmo Baum-Welch 
para aprendizaje HMM (Baum y Petrie, 1966). (El propio Dempster define EM mas como 
un esquema que como un algoritmo, ya que requiere un buen trabajo de câlculo mate- 
mâtico antes de que pueda ser aplicado a una nueva familia de distribuciones.) EM es 
uno de los algoritmos mas ampliamente usados en la ciencia, y McLachlan y Krishnan 
(1997) dedican un libro entera al algoritmo y sus propiedades. El problema especifico 
de aprendizaje de modelos de mezclas, incluyendo mezclas de gaussianas, se trata en 
Tittering-ton et al. (1985). Dentro de IA, el primer sistema con éxito que usé EM para 
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modelado de mixturas fue Autoclass (Cheeseman et al., 1988; Cheeseman y Stutz, 
1996). Autoclass ha sido aplicado a varias tareas de clasificaciôn cientifica del mun- 
do real, incluyendo el descubrimiento de nuevos tipos de estrellas a partir de datos es- 
pectrales (Goebel et al., 1989) y nuevas clases de proteinas y de intrones en bases de datos 
de secuencias de proteinas/ADN (Hunter y States, 1992). 

Lauritzen (1995) desarrollô un algoritmo EM para el aprendizaje de redes bayesia- 
nas con variables ocultas. También se ha demostrado que las técnicas basadas en el gra- 
diente son efectivas para redes bayesianas al igual que para redes bayesianas dinâmicas 
(Russell et al., 1995; Binder et al., 1997a). El algoritmo EM estructural fue desarrolla- 
do por (Friedman, 1998). La habilidad para aprender la estmctura de las redes bayesia¬ 
nas esta relacionada con la recuperaciôn de informacion causal a partir de los datos. Esto 
es, /es posible aprender redes bayesianas de forma que la estructura recuperada de la 
red indique influencias causales reales? Durante muchos anos, los estadisticos eludie- 
ron esta pregunta, creyendo que los datos observados (en oposiciôn a los datos genera- 
dos a partir de procesos experimentales) podian producir solo informacion correlacional; 
después de todo, dos variables que aparecen relacionadas podrian, de hecho, verse afec- 
tadas por un tercer factor causal desconocido en vez de influir una en otra directamen- 
te. Pearl (2000) ha presentado argumentos convincentes de lo contrario, mostrando que 
existen, de hecho, muchos casos donde la causalidad puede ser determinada y desarro- 
red causal llada por el formalismo red causal para expresar las causas y los efectos de las inter- 

venciones, al igual que las probabilidades condicionales ordinarias. 

Los modelos de vecinos mas cercanos datan de (Fix y Hodges, 1951) y han sido una 
herramienta estândar en estadistica y reconocimiento de patrones desde enfonces. Den- 
tro de IA, fueron popularizados por (Stanfill y Waltz, 1986), quienes investigaron mé- 
todos para adaptar la distancia métrica a los datos. Hastie y Tibshnani (1996) desarrollaron 
una forma para localizar la métrica a cada punto del espacio, dependiendo de la distri- 
buciôn de los datos alrededor del punto. Dentro de la comunidad algorftmica, se han es- 
tudiado esquemas eficientes de indexamiento para encontrar los vecinos mas cercanos 
{véase, por ejemplo, Indyk, 2000). La estimaciôn de la densidad del nücleo, también de- 
nominada estimaciôn de la densidad de la ventana Parzen, fue investigada inicialmen- 
te por Rosenblatt (1956) y Parzen (1962). Desde enfonces, se ha desarrollado una enorme 
cantidad de literatura investigando las propiedades de varios estimadores. Devroye 
(1987) da una minuciosa introducciôn. 

La literatura sobre redes neuronales es demasiado extensa (aproximadamente 100.000 
articulos hasta la fecha) para cubrirla en detalle. Cowan y Sharp (1988b, 1988a) resu- 
men los primeros acontecimientos, comenzando con el trabajo de McCulloch y Pitts 
(1943). Norbert Wiener, un pionero en la cibernética y en la teorfa de control (Wiener, 
1948), trabajo con McCulloch y Pitts e influyô en un numéro de jôvenes investigadores 
incluyendo a Marvin Minsky, quien pudiera haber sido el primero en desarrollar una red 
neuronal en hardware en 1951 {véase Minsky y Papert, 1988, pp. ix-i). Mientras tanto, 
en Gran Bretana, W. Ross Ashby (también un pionero de la cibernética; véase Ashby, 
1940), Alan Turing, Grey Walter y otros, formaron el Club Ratio para «aquellos que te- 
nian las ideas de Wiener antes de que el libro de Wiener apareciera». Design for a Brain 
(Diseno de un cerebro) de Ashby (1948, 1952) propuso la idea de que la inteligencia po- 
dria ser creada a través del uso de dispositivos homeostâticos que contuvieran ciclos apro- 
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piados de realimentacion para conseguir comportamientos adaptatives estables. Turing 
(1948) escribio un informe de investigacion titulado Intelligent Machinery (Maquinaria 
Inteligente) que comienza con la frase «Propongo investigar si es posible para las mâ- 
quinas mostrar comportamiento inteligente» y continüa describiendo una arquitectura 
de redes neuronales récurrentes que denomino «mâquinas tipo-B sin organizacion» y un 
enfoque para entrenarlas. Desafortunadamente, el informe no se publicô hasta 1969, y 
fue completamente ignorado hasta hace poco. 

Frank Rosenblatt (1957) inventé el «perceptron» moderno y demostro el teorema de 
la convergencia del perceptron (1960), aunque ha sido mas mencionado por su trabajo 
puramente matemâtico fuera del contexto de las redes neuronales (Agmon, 1954; Motz- 
kin y Schoenberg, 1954). También se hicieron los primeros trabajos sobre redes multi- 
capa, incluyendo los perceptrones Gamba (Gamba et al., 1961) y madalines (Widrow, 
1962). Learning Machines (Nilsson, 1965) cubre muchos de estos primeros trabajos y 
otros. La desaparicion de los primeros esfuerzos en investigacion del perceptron se ace- 
lerô a causa el libro Perceptrons (Minsky y Papert, 1969), que lamenta su falta de rigor 
matemâtico. El libro senalaba que los perceptrones de una ünica capa podian represen- 
tar solo conceptos linealmente séparables y apuntaba la falta de algoritmos de aprendi- 
zaje efectivos para redes multicapa. 

Se puede considerar que los arriculos en (Hinton y Anderson, 1981), basados en la 
conferencia de San Diego de 1979, marcan el renacimiento del conexionismo. Los dos 
volümenes de antologlas «PDP» ( Parallel Distributed Processing) (Rumelhart et al., 
1986a) y un artlculo corto en Nature (Rumelhart et al., 1986b) atrajeron una gran can- 
tidad de atencion; en realidad, el nümero de arriculos sobre «redes neuronales» se ha mul- 
tiplicado por un factor de 200 entre 1980-84 y 1990-94. El anâlisis de redes neuronales 
usando la teoria fisica de los s pin-glasses magnéticos (Amit et al., 1985) unio los lazos 
entre los mecanismos estadlsticos y la teoria de redes neuronales, proporcionando no solo 
ütiles perspicacias matemâticas sino también respetabilidad. La técnica de la propaga- 
cion hacia atrâs fue inventada relativamente pronto (Bryson y Ho, 1969) pero se redes- 
cubrio varias veces (Werbos, 1974; Parker, 1985). 

Las mâquinas de vectores soporte se originaron en la década de los 90 (Cortès y Vap- 
nik, 1995) y ahora son sujeto de una literatura que estâ creciendo râpidamente, incluyendo 
libres de texto como Cristianini y Shawe-Taylor (2000). Se han hecho muy populares y 
efectivas para tareas de categorizacion de textos (Joachims, 2001), investigacion bioin- 
formâtica (Brown et al., 2000), y procesamiento del lenguaje natural, como el reconoci- 
miento de dlgitos escritos a mano de DeCoste y Scholkopf (2002). Una técnica relacionada 
que usa también el «truco del nücleo» para representar impheitamente un espacio de ca- 
racteristicas exponencial es el perceptron con votos (Collins y Duffy, 2002). 

La interpretacion probabillstica de las redes neuronales tiene varias fuentes, inclu¬ 
yendo Baum y Wilczek (1988) y Bridle (1990). Jordan (1995) discute el papel de la fun- 
cion sigmoide. El aprendizaje de los paramètres bayesianos para redes neuronales fue 
propuesto por MacKay (1992) y fue explorado en mâs detalle por Neal (1996). La ca- 
pacidad de las redes neuronales para representar funciones ha sido investigada por 
Cybenko (1988, 1989), quien mostrô que dos capas ocultas son suficientes para repre¬ 
sentar cualquier funcion y una ünica capa es suficiente para representar cualquier fun- 
ciôn continua. El método del «optimo dario en el cerebro» para eliminar conexiones 
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inutiles es de LeCun et al. (1989), y Siesma y Dow (1988) muestran cômo eliminar uni- 
dades inütiles. El algoritmo tiling para aumentar estructuras grandes es de Mézard y Na- 
dal (1989). LeCun et al. (1995) resumen un numéro de algoritmos para reconocimiento 
de digitos escritos a mano. Desde enfonces, Belongie et al. (2002) propusieron mejoras 
en las tasas de error, para encaje de formas y DeCoste y Scholkopf (2002) para vecto- 
res soporte virtuales. 

Los investigadores de la teorfa computacional del aprendizaje han investigado so¬ 
bre la complejidad del aprendizaje de las redes neuronales. Los primeros resultados com- 
putacionales fueron obtenidos por Judd (1990), quien mostrô que el problema general 
de encontrar un conjunto de pesos consistentes con un conjunto de ejemplos es NP-com- 
pleto, incluso bajo asunciones muy restrictivas. Baum y Haussier (1989) obtuvieron al- 
gunos de los primeros resultados sobre la complejidad de la muestra, éstos mostraron 
que el nümero de ejemplos requeridos para un aprendizaje efectivo crece aproximada- 
mente W log W, donde W es el nümero de pesos 16 . Desde entonces, se ha desarrollado 
una teoria mas sofisticada (Anthony y Bartlett, 1999), incluyendo los importantes re¬ 
sultados de que la capacidad de representaciôn de la red dépende de la magnitud de los 
pesos al igual que de su nümero. 

El tipo de red neuronal mas popular que no hemos cubierto es la funciôn de base 
radial, o red RBL ( Radial Basis Function). Una funciôn de base radial combina una co- 
lecciôn ponderada de nücleos (normalmente gaussianos, por supuesto) para la aproxi- 
maciôn de funciones. La red RBL puede entrenarse en dos fases: primero, se usa un 
enfoque de agrupamiento no supervisado para entrenar los parâmetros de las gaussia- 
nas (las médias y las varianzas) como en el Apartado 20.3. En la segunda fase, se de- 
terminan los pesos relativos de las gaussianas. Este es un sistema de ecuaciones lineales, 
que sabemos cômo resolver directamente. Por ello, ambas fases del entrenamiento de la 
RBL tienen un beneficio: la primera fase es no supervisada, y por ello no requiere da¬ 
tas de entrenamiento etiquetados, y la segunda fase, aunque es supervisada, es eficien- 
te. Véase Bishop (1995) para mas detalles. 

Las redes récurrentes, en las que las unidades estân unidas en ciclos, fueron men- 
cionadas en el capitulo, pero no se exploraron en detalle. Las redes de Hopfîeld (Hop- 
field, 1982) son probablemente la clase de redes récurrentes mejor comprendidas. Usan 
conexiones bidireccionales con pesos simétricos (es decir, W tj = W jt ), todas las unida¬ 
des son a la vez unidades de entrada y unidades de salida, la funciôn de activaciôn g es 
la funciôn signo, y los niveles de activaciôn solo pueden ser +1. Una red de Hopfîeld 
funciona como una memoria asociativa: después de que la red se entrena con un con¬ 
junto de ejemplos, un nuevo estimulo causarâ el establecimiento del patron de activa¬ 
ciôn correspondiente al ejemplo del conjunto de entrenamiento mâs parecido al nuevo 
estimulo. Por ejemplo, si el conjunto de entrenamiento consiste en un conjunto de fo- 
tografias, y un nuevo estimulo es una pequena parte de una de las fotografias, entonces 
los niveles de activaciôn de la red reproducirân la fotografia de la cual la parte fue to- 
mada. Nôtese que las fotografias originales no se guardan de forma separada en la red; 
cada peso es una codificaciôn parcial de todas las fotografias. Uno de los resultados teô- 


16 Esto confirma aproximadamente la «régla del tfo Bernie». Esta régla lleva el nombre de Bernie Widrow, 
quien recomendô usar aproximadamente diez veces tantos ejemplos como pesos. 
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ricos mas importantes es que las redes de Hopfield pueden almacenar fidedignamente 
hasta 0,138iV ejemplos de entrenamiento, donde N es el nümero de unidades de la red. 
mâquina boltzmann Las mâquinas Boltzmann (Hinton y Sejnowski, 1983, 1986) también usan pesos 

simétricos, pero incluyen unidades ocultas. Ademâs, usan una funciôn de activaciôn es- 
tocâstica, tal que la probabilidad de que la salida sea 1 es una funciôn de la entrada to¬ 
tal ponderada. Por ello, las mâquinas Boltzmann experimentan transiciones de estados 
que recuerdan la büsqueda del recocido simulado ( véase Capitulo 4) para la configura- 
ciôn que mejor aproxima al conjunto de entrenamiento. Résulta que las mâquinas Boltz¬ 
mann estân muy relacionadas con un caso especial de redes bayesianas evaluadas con 
un algoritmo de simulaciôn estocâstica. ( Véase Apartado 14.5.) 

La primera aplicaciôn de las ideas base de las mâquinas nücleo fueron de Aizerman 
et al. (1964), pero el desarrollo completo de la teorfa, encabezado por las mâquinas de 
vectores soporte, es debido a Vladimir Vapnik y sus colegas (Boser et al., 1992; Vap- 
nik, 1998). Cristianini y Shawe-Taylor (2000) y Scholkopf y Smola (2002) proporcio- 
nan introducciones rigurosas; una exposiciôn familiar aparece en el articulo Al Magazine 
de Cristianini y Scholkopf (2002). 

El material de este capitulo aüna trabajos de los campos de estadistica, reconocimien- 
to de patrones y redes neuronales, asi que la historia ha sido contada muchas veces de mu- 
chas formas. DeGroot (1970), Berger (1985) y Gelman et al. (1995) son buenos libres de 
estadistica bayesiana. Hastie et al. (2001) proporcionan una introducciôn excelente a los 
métodos de aprendizaje estadisticos. Para la clasificaciôn de patrones, el libre clâsico du¬ 
rante muchos anos ha sido Duda y Hart (1973), ahora actualizado (Duda étal., 2001). Para 
redes neuronales, Bishop (1995) y Ripley (1996) son los libres lideres. El campo de la neu- 
rociencia computacional estâ cubierto por Dayan y Abbott (2001). La conferencia mâs im¬ 
portante sobre redes neuronales y temas relacionados es la conferencia anual NIPS (. Neural 
Information Processing Conférence), cuyas actas se publican como sériés de Advances in 
Neural Information Processing Systems. También aparecen articulos sobre aprendizaje en 
redes bayesianas en la conferencia Uncertainty in Al and Machine Learning y en varias con- 
ferencias estadisticas. Algunas revistas especificas sobre redes neuronales incluyen a Neu¬ 
ral Computation, Neural Networks y IEEE Transactions on Neural Networks. 



EJERCICIOS 

20.1 Los datos usados para la Figura 20.1 pueden verse como si hubieran sido gene- 
rados por h 5 . Para cada una de las otras cuatro hipôtesis, genere un conjunto de datos de 
longitud 100 y dibuje los grafos correspondientes a P{h\d v ..., d m ) y P{D mH = lima\d v 
..., d m ). Comente sus resultados. 

20.2 Repita el Ejercicio 20.1, esta vez dibujando los valores de P(D m+l = lima\h MAP ) y 
P(D m+1 = Uma\h ML ). 

20.3 Suponga que las utilidades de Ann para caramelos de cereza y lima son c A y C A , mien- 
tras que las utilidades de Bob son c B y £ B . (Pero una vez que Ann ha desenvuelto un cara- 
melo, Bob no lo querrâ comprar.) Presumiblemente, si a Bob le gustan los caramelos de 
lima mâs que a Ann, séria prudente para Ann vender su boisa de caramelos una vez que 





864 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


ella esté suficientemente segura de su contenido de caramelos de lima. Por otro lado, si 
Ann desenvuelve demasiados caramelos en el proceso, la boisa tendra menos. Discuta el 
problema de determinar el momento optimo en el que vender la boisa. Détermine la utili- 
dad esperada del procedimiento optimo, dada la distribuciôn a priori del Apartado 20.1. 

20.4 Dos estadisticos van al médico y a ambos se les da el mismo pronôstico: Un 40 
por ciento de posibilidad de que el problema sea la enfermedad mortal A, y un 60 por 
ciento de posibilidad de que sea la enfermedad fatal B. Afortunadamente, existen me- 
dicamentos anti-A y anti-fî que no son caros, con el 100 por cien de efectividad y libres 
de efectos secundarios. Los estadisticos tienen la oportunidad de tomar un medicamen- 
to, ambos, o ninguno. ^Qué harâ el primer estadista (un aférrimo bayesiano)? / ; Y el se- 
gundo estadistico, que siempre usa la hipotesis de mâxima verosimilitud? 

El médico ha hecho algunas investigaciones y ha descubierto que la enfermedad B 
realmente se da en dos versiones, dextro-S y levo-S, que son igualmente probables e igual- 
mente tratables por el medicamento anti-fi. Ahora hay très hipotesis, / ; qué harân los dos 
estadisticos? 


20.5 Explique cômo aplicar el método potenciado del Capitulo 18 al aprendizaje de 
Bayes simple. Compruebe el funcionamiento del algoritmo résultante en el problema de 
aprendizaje del restaurante. 

20.6 Considéré m puntos de los datos (x ; , y ( ), donde los y j se generan a partir de los x ] 
de acuerdo al modelo lineal gaussiano de la Ecuacion (20.5). Encuentre los valores de 
#i y d 2 , y a que maximizan el logaritmo condicional de la verosimilitud de los datos. 

20.7 Considéré el modelo OR ruidoso para la fiebre descrito en el Apartado 14.3. Ex¬ 
plique cômo aplicar el aprendizaje de la mâxima verosimilitud para ajustar los paramé¬ 
tras del modelo a un conjunto de datos completos. (Consejo: use la régla de cadena para 
derivaciones parciales.) 


FUNCIÔN GAMMA 


20.8 Este ejercicio analiza las propiedades de la distribuciôn Beta definida en la Ecua- 
ciôn (20.6). 

a) Integrando en el intervalo [0, 1], muestre que la constante de normalizaciôn para 
la distribuciôn beta[a, b] viene dada por a = V(a + b)[T(d) V(b) donde T(x) es 
la funciôn Gamma, definida por T(x + 1) = x • T(x) y F( 1) = 1. (Para x ente¬ 
ras, r(x+1)=x!). 

b) Muestre que la media es a/(a + b). 

c ) Encuentre la(s) moda(s) (los valores mas probables de 6). 

d) Describa la distribuciôn beta[e, e] para e pequenos. ^Qué ocurre mientras que 
se actualiza la distribuciôn? 


20.9 Considéré una red bayesiana arbitraria, un conjunto completo de datos para la red, 
y la verosimilitud para el conjunto de datos de acuerdo con la red. Proporcione una prue- 
ba simple de que la verosimilitud de los datos no puede decrecer si anadimos un nuevo 
enlace en la red y recalculamos los valores de los paramétras de mâxima verosimilitud. 


20.10 Considéré la aplicaciôn de EM para aprender los parâmetros de la red de la Fi¬ 
gura 20.10(a), dados los parâmetros reales de la Ecuacion (20.7). 
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a) Explique por qué el algoritmo EM no funcionarfa si hubiese exactamente dos 
atributos en el modelo en vez de très. 

b) Muestre los câlculos para la primera iteracion de EM empezando a partir de la 
Ecuacion (20.8). 

c) ^Qué ocurre si empezamos con todos los paramétras inicializados al mismo va- 
lor p] (Consejo: sera ütil investigar esto empiricamente antes de obtener el re- 
sultado general.) 

d) Escriba una expresiôn para el logaritmo de la mâxima verosimilitud para los da- 
tos tabulados de los caramelos del Apartado 20.3 en términos de los paramé¬ 
tras, calcule las derivadas parciales respecto a cada paramétra, e investigue la 
naturaleza de los puntos fijos en el apartado (c). 

20.11 Construya a mano una red neuronal que calcule la funcion XOR de dos entra- 
das. Asegürese de especificar qué clase de unidades esta usando. 

20.12 Construya una mâquina de vectores soporte que calcule la funcion XOR. Sera 
conveniente usar valores de 1 y —1 en vez de 1 y 0 para las entradas y para las salidas. 
Asi un ejemplo sera de la forma ([—1, 1], 1) o ([-1,-1], —1). Es tipico hacer corresponder 
una entrada x con un espacio de cinco dimensiones, las dos dimensiones originales x t y 
x 2 , y las très combinaciones xf, x\ y x l x 2 . Pero para este ejercicio consideraremos solo 
las dos dimensiones Xj y x l x 2 . Dibuje los cuatro puntos de entrada en el espacio, y el se- 
parador de margen mâximo. /Cuâl es el margen? Ahora dibuje la linea separadora en el 
espacio original de entrada Euclfdeo. 

20.13 Un perceptron simple no puede representar la funcion XOR (o, en lfneas gene¬ 
rales, la funcion paridad de sus entradas). Describa qué ocurre con los pesos, a medida 
que llegan los ejemplos de la funcion paridad, en un perceptron de cuatro entradas con 
funcion escalôn, comenzando con todos los pesos inicializados a 0,1. 

20.14 Recordando del Capitulo 18 que hay funciones boolenas distintas de n entradas. 
/ Cuântas de éstas se pueden representar mediante un perceptron umbral? 

20.15 Considéré el siguiente conjunto de ejemplos, cada uno con seis entradas y una 
salida objetivo: 


A 

1 

1 

1 

1 

1 

1 

1 

0 

0 

0 

0 

0 

0 

0 

h 
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0 

0 

1 
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1 
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1 

0 

1 
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h 

0 
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0 

0 

1 
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1 

0 

1 
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0 

0 

1 

1 

0 

1 

1 

0 

1 

1 

0 

0 
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0 

h 

0 

0 

0 

1 

0 

1 

0 

1 

1 

0 

1 

1 

1 

0 

T 

1 

1 

1 

1 

1 

1 

0 

1 

0 

0 

0 

0 

0 

0 


a) Ejecute la régla de aprendizaje del perceptron en estos datos y muestre los pe¬ 
sos finales. 

b) Ejecute la régla de aprendizaje del ârbol de decision, y muestre el ârbol de de¬ 
cision résultante. 

c) Comente los resultados. 
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20.16 Comenzando en la Ecuaciôn (20.13), muestre que i)L / dWj = Err X a r 

20.17 Suponga que tiene una red neuronal con funciones de activaciôn lineal. Es de- 
cir, para cada unidad, la salida es la suma ponderada de las entradas, un nümero cons¬ 
tante c de veces. 

a) Asuma que la red tiene una capa oculta. Para una asignacion dada de los pesos 
W, escriba las ecuaciones para el valor de las unidades en la capa de salida como 
una funcion de W y de la capa de entrada I, sin ninguna mencion explicita a la 
salida de las capas ocultas. Muestre que existe una red sin unidades ocultas que 
calcula la misma funcion. 

b) Repita los câlculos del apartado (a), esta vez para una red con cualquier nüme¬ 
ro de capas ocultas. / ; Qué conclusiones puede obtener sobre las funciones de ac- 
tivacion lineal? 

20.18 Implemente una estructura de datos para redes neuronales multicapa con ali- 
mentaciôn hacia delante, recordando proporcionar la informacion necesaria tanto para 
la evaluacion hacia delante como para la propagacion hacia atrâs. Usando esta estruc¬ 
tura de datos, escriba una funcion Salida-Red-Neuronal que dado un ejemplo y una 
red calcule los valores apropiados de la salida. 

20.19 Suponga que un conjunto de entrenamiento contiene solo un ünico ejemplo, re- 
petido 100 veces. En 80 de los 100 casos, el ünico valor de salida es 1; en los otros 20, 
es 0. ï,Qué predecirâ una red con propagacion hacia atrâs para este ejemplo?, asumien- 
do que ha sido entrenada y ha alcanzado un ôptimo global. (Consejo: para encontrar un 
optimo global, diferencie la funcion del error e iguale el resultado a cero.) 

20.20 La red de la Figura 20.24 tiene cuatro nodos ocultos. Este nümero se escogio de 
forma arbitraria. Haga experimentos de forma sistemâtica para medir las curvas de apren- 
dizaje para redes con distinto nümero de nodos ocultos. /Cuâl es el nümero optimo? ^Sé¬ 
ria posible usar el método de validacion cruzada para encontrar con antelacion la mejor red? 

20.21 Considéré el problema de separar N puntos de los datos en ejemplos positivos 
y negativos usando un separador lineal. Claramente, esto se puede hacer siempre para 
N = 2 puntos con una linea de dimension d = 1, a pesar de como estén los puntos eti- 
quetados o donde estén localizados (a menos que los puntos estén en el mismo lugar). 

a) Demuestre que siempre se puede hacer para N = 3 puntos sobre un piano de di¬ 
mension d = 2, a menos que sean colineales. 

b) Demuestre que no siempre se puede hacer para N = 4 puntos sobre un piano de 
dimension d = 2. 

c) Demuestre que siempre se puede hacer para N = 4 puntos sobre un piano de di¬ 
mension d = 3, a menos que sean coplanarios. 

d) Demuestre que no siempre se puede hacer para N = 5 puntos sobre un piano de 
dimension d = 3. 

e ) El estudiante ambicioso quizâ quiera probar que N puntos sobre posiciones ge¬ 
nerales, pero no N + 1, son linealmente séparables en un espacio de N — 1 di- 
mensiones. A partir de esto se llega a que la dimension VC (que vimos en el 
Capitulo 18) de espacios lineales en dimension N — 1 es N. 


21 Aprendizaje por refuerzo 


En este capitulo se examinarâ cômo un agente puede aprender a partir del éxito y 
elfracaso, mediante recompensas y castigos. 


21.1 Introduccion 


Los Capitulos 18 y 20 cubren métodos de aprendizaje que aprenden funciones y mode- 
los probabilisticos a partir de ejemplos. En este capltulo, estudiaremos cômo los agen¬ 
tes pueden aprender qué hacer, particularmente cuando no hay un profesor que diga al 
agente qué acciôn tomar en cada circunstancia. 

Por ejemplo, sabemos que un agente puede aprender a jugar al ajedrez con aprendi¬ 
zaje supervisado, proporcionândole ejemplos de situaciones de juego con los mejores 
movimientos para dichas situaciones. Pero si no hay un profesor que proporcione ejem¬ 
plos, /t|ué puede hacer el agente? Intentando movimientos aleatorios, el agente puede 
eventualmente construir un modelo de prédiction de su entomo: cômo estarâ el tablero 
después de que haga un movimiento e incluso cômo es probable que el oponente res- 
ponda en una situaciôn dada. El problema es el siguiente: sin cierta realimentaciôn de 
lo que es bueno y de lo que es malo, el agente no tendra razones para decidir qué mo¬ 
vimiento hacer. El agente necesita saber que algo bueno ha ocurrido cuando gana y que 
algo malo ha ocurrido cuando pierde. Esta clase de realimentaciôn se denomina re¬ 
compensa, o refuerzo. En juegos como el ajedrez, el refuerzo se recibe solo al final del 
juego. En otros entornos, las recompensas vienen mas frecuentemente. En el ping-pong, 
cada punto que sube al marcador puede considerarse como una recompensa; cuando se 
aprende a gatear, cualquier movimiento hacia delante es un éxito. Nuestra herramienta 
para agentes considéra la recompensa como parte de la entrada que se percibe, pero el 
agente debe ser «cableado» para que reconozca dicha parte como una recompensa en 
vez de simplemente como otra entrada sensorial. Por ello, los animales parecen estar ca- 
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bleados para reconocer el dolor o el hambre como recompensas negativas y el placer y 
la comida se toman como recompensas positivas. Los psicôlogos han estudiado cuida- 
dosamente el refuerzo con animales desde hace 60 anos. 

En el Capitulo 17 se introdujeron las recompensas, que servian para définir politi- 
cas ôptimas en procesos de decision de Markov (MDPs). Una politica ôptima es una 
politica que maximiza la recompensa total esperada. La tarea del aprendizaje por re¬ 
fuerzo es usar recompensas observadas para aprender una politica ôptima (o aproxi- 
madamente ôptima) para el entorno. Mientras que en el Capitulo 17 el agente tiene un 
modelo completo del entorno y conoce la funciôn de recompensa, aqui no asumimos nin- 
gün conocimiento a priori. Imagine jugar a un nuevo juego cuyas réglas desconoce; des- 
pués de cientos de movimientos mas o menos, su oponente dice, «Perdiste». En resumen, 
esto es aprendizaje por refuerzo. 

En muchos dominios complejos, el aprendizaje por refuerzo es el ünico camino po- 
sible para entrenar un programa para que funcione adecuadamente. Por ejemplo, en te- 
oria de juegos, es muy dificil para un humano proporcionar evaluaciones certeras y 
consistentes de grandes nümeros de posiciones, que serian necesarios para entrenar una 
funciôn de evaluaciôn directamente desde los ejemplos. En vez de ello, se le puede de- 
cir al programa cuândo ha ganado o ha perdido, y puede usar esta informaciôn para apren¬ 
der una funciôn de evaluaciôn que proporcione estimaciones certeras y razonables de la 
probabilidad de ganar a partir de una situaciôn dada. De forma similar, es extremada- 
mente dificil programar a un agente para que pilote un helicôptero; sin embargo dando 
recompensas negativas apropiadas por estrellarse, tambalearse, o desviarse de la ruta es- 
tablecida, un agente puede aprender a volar por si mismo. 

Se considéra que el aprendizaje por refuerzo abarca toda la IA: un agente esta ubi- 
cado en un entorno y debe aprender a comportarse con éxito en él. Para que el capitulo 
sea manejable, nos concentraremos en marcos sencillos y disenos de agentes sencillos. 
Para la mayor parte, asumiremos un entorno completamente observable, por ello por cada 
percepciôn se facilita el estado actual. Por otro lado, asumiremos que el agente no co¬ 
noce como funciona el entorno o qué acciôn llevar a cabo, y permitiremos salidas de ac- 
ciones probabilisticas. Consideraremos très de los disenos de agentes introducidos por 
primera vez en el Capitulo 2: 

• Un agente basado en la utilidad aprende una funciôn de utilidad de los estados 
y la usa para seleccionar las acciones que maximizan el resultado esperado de la 
utilidad. 

• Un agente de aprendizaje-<2 aprende una funciôn acciôn-valor, o funciôn-g, pro- 
porcionando la utilidad esperada de tomar una determinada acciôn en un estado 
dado. 

• Un agente reactivo aprende una politica que establece una correspondencia di- 
recta entre los estados y las acciones. 

Un agente basado en la utilidad también tiene un modelo del entorno para tomar deci- 
siones, ya que debe conocer los estados a los que sus acciones le llevarân. Por ejemplo, 
para hacer uso de una funciôn de evaluaciôn del backgammon , un programa backgam- 
mon debe saber cuâles son los movimientos legales y como afectan en la posiciôn del 
tablero. Solo de esta forma puede aplicar la funciôn de utilidad a los estados resultan- 
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tes. Un agente de aprendizaje-g, por otro lado, puede comparar los valores de sus posi- 
bilidades disponibles sin la necesidad de saber sus resultados, asi que no necesita un mo- 
delo del entorno. Por otro lado, ya que no sabe donde le conducen sus acciones, los 
agentes de aprendizaje-<2 no pueden mirar hacia delante; esto puede restringir seriamente 
su habilidad para aprender, como veremos. 

aprendizaje pasivo En el Apartado 21.2 empezaremos con aprendizaje pasivo, donde la politica del 

agente esta fijada y la tarea es aprender las utilidades de los estados (o parejas estado- 
accion); esto también puede suponer el aprendizaje de un modelo del entorno. El Apar¬ 
tado 21.3 cubre el aprendizaje activo, donde el agente debe aprender también qué 
hacer. El principal aspecto es la exploraciôn: un agente debe tener tantas experiencias 
de su entorno como le sea posible para aprender como comportarse en él. El Apartado 
21.4 discute como un agente puede usar aprendizaje inductivo para aprender mas râpi- 
do de sus experiencias. El Apartado 21.5 cubre métodos de aprendizaje de representa- 
ciones directas de politicas en agentes reactivos. Es esencial para este capitulo entender 
los procesos de decision de Markov (Capitulo 17). 


APRENDIZAJE ACTIVO 

EXPLORACION 


21.2 Aprendizaje por refuerzo pasivo 


Para que las cosas sean sencillas, comenzamos con el caso de un agente de aprendizaje 
pasivo que utiliza una representacion basada en estados en un entorno completamente 
observable. En aprendizaje pasivo, la politica del agente 77 esta fijada: en el estado s, siem- 
pre ejecuta la acciôn 77 ( 5 ). Su meta es sencillamente aprender la bondad de la politica, 
es decir, aprender la funcion de utilidad U n (s). Usaremos nuestro ejemplo del mundo 4 
X 3, introducido en el Capitulo 17. La Figura 21.1 muestra una politica para este mun¬ 
do y sus utilidades correspondientes. De forma clara, la tarea del aprendizaje pasivo es 
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(b) 


Figura 21.1 (a) Una politica 77 para el mundo 4X3; esta politica es ôptima con recompensas de 

R(s) = — 0,04 en los estados no terminales y sin descuentos. (b) Las utilidades de los estados en el 
mundo 4X3, dada la politica 77 . 
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PRUEBA 


ESTIMACIÔN DIRECTA 
DE LA UTILIDAD 


TEORIA DE CONTROL 
ADAPTATIVO 


similar a la tarea de la evaluaciôn de la polîtica, parte del algoritmo de iteraciôn de la 
polîtica descrito en el Apartado 17.3. La principal diferencia es que el agente de apren- 
dizaje pasivo no conoce el modelo de transiciones T(s, a, s'), que especifica la proba- 
bilidad de alcanzar el estado s' a partir del estado 5 después de realizar la acciôn a; ni la 
funciôn récompensa R(s), que especifica la recompensa de cada estado. 

El agente ejecuta un conjunto de pruebas en el entomo usando su polîtica 7 r. En cada 
prueba, el agente comienza en el estado (1, 1) y expérimenta una secuencia de transi¬ 
ciones de estados hasta que alcanza uno de los estados terminales, (4, 2) o (4, 3). Sus 
percepciones proporcionan tanto el estado actual como la recompensa que se recibe en 
ese estado. Las pruebas tipicas tienen el siguiente aspecto: 


(1.D-o,o4-(1>2)_ 0 , 04 -(1,3)_ 0;04 -(1,2) 
( 1 , l) — 0,04 *( 1 > 2) hmm -(1, 3)_ 0 , 04 -(2, 3) 
(1. D-0,04^(2, l)-«,04-(3, l)-0,04-(3,2) 


-o,o4^(l’ 3)- 0 , 04 ^ 2 , 3)_o.«4^(3, 3) 
- 0 ,04^( 3 ’ 3 )_ 0 04 ^(3, 2 )_ 0 04 »(3, 3) 

-0,04^(4> 2)_j 


-0,04^(4> 3) 
-o,o4^(4î 3) 


+1 

+1 


Nôtese que cada estado percibido se subcodifica con la recompensa recibida. El objeti- 
vo es usar la informaciôn sobre las recompensas para aprender la utilidad esperada 
U“(s) asociada con cada estado no terminal. La utilidad se define como la suma espe¬ 
rada de recompensas (descontadas) obtenidas si se sigue la polîtica 77 . Como en la Ecua- 
ciôn (17.3) en el Apartado 17.2, esto se escribe como 


U n (s) = E 


^YR(s t ) |tt, s 0 = 


t =0 


( 21 . 1 ) 


Incluiremos un factor de descuento y en todas nuestras ecuaciones, pero para el mun- 
do 4 X 3 pondremos y = 1. 


Estimaciôn directa de la utilidad 

Widrow y Hoff (1960) inventaron un método sencillo para la estimaciôn directa de la 
utilidad a finales de la década de los 50 en el area de la teoria de control adaptativo. 
La idea es que la utilidad de un estado es la recompensa total esperada del estado en ade- 
lante, y cada prueba proporciona un ejemplo del valor para cada estado visitado. Por ejem- 
plo, la primera prueba de las très dadas anteriormente, proporciona una muestra de 
recompensa total de 0,72 para el estado (1, 1), dos muestras de 0,66 y 0,84 para (1, 2), 
dos muestras de 0,80 y 0,88 para (1, 3), etc. Asi, al final de cada secuencia, el algorit¬ 
mo calcula la recompensa observada al llegar a cada estado y actualiza la utilidad esti- 
mada para dicho estado, manteniendo una media para cada estado en una tabla. En el 
limite de infinitas pmebas, la media de la muestra convergera al valor real esperado en 
la Ecuaciôn (21.1). 

Esta claro que la estimaciôn directa de la utilidad es solo un ejemplo de aprendiza- 
je supervisado donde cada ejemplo tiene como entrada el estado y como salida la re¬ 
compensa observada por llegar. Esto quiere decir que hemos reducido el aprendizaje por 
refuerzo a un problema estândar de aprendizaje inductivo, como se discutiô en el Capi- 
tulo 18. El Apartado 21.4 discute el uso de tipos de representaciones mas potentes para 
las funciones de utilidad, como redes de neuronas. Las técnicas de aprendizaje de dichas 
representaciones se pueden aplicar directamente a los datos observados. 
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La estimacion directa de la utilidad tiene éxito reduciendo el problema del aprendi- 
zaje por refuerzo a un problema de aprendizaje inductivo, sobre el que se conoce mas. 
Desafortunadamente, pierde una fuente muy importante de informaciôn, a saber, ;el he- 
cho de que las utilidades no son independientes! La utilidad de coda estado es igual a 
su propia recompensa mâs la utilidad esperada de sus estados sucesores. Es decir, los 
valores de la utilidad obedecen la ecuacion de Bellman para una politica fija ( véase tam- 
bién la Ecuacion (17.10)): 

î/'(î) = R(s) + yJ J T(s, Tr(s),s')U n (s') (21.2) 

s' 

Ignorando la conexiôn entre los estados, la estimacion directa de la utilidad pierde opor- 
tunidades para el aprendizaje. Por ejemplo, la segunda de las très pruebas dadas ante- 
riormente alcanza el estado (3, 2), que no ha sido previamente visitado. La siguiente 
transiciôn alcanza (3, 3), del que se conoce a partir de la primera prueba que tiene una 
alta utilidad. La ecuacion de Bellman sugiere inmediatamente que es también probable 
que (3, 2) tenga una alta utilidad, ya que conduce a (3, 3), pero la estimacion directa de 
la utilidad no aprende nada hasta que se finaliza la prueba. Mâs ampliamente, podemos 
ver la estimacion directa de la utilidad como una büsqueda en un espacio de hipôtesis 
para U que es mâs grande de lo que necesita ser, ya que incluye muchas funciones que 
violan la ecuacion de Bellman. Por esta razôn, el algoritmo a menudo converge muy len- 
tamente. 


Programaciôn dinâmica adaptativa 


PROGRAMACION 
DINÂMICA ADAPTATIVA 


Para aprovechar las restricciones entre los estados, un agente debe aprender como estos 
estân conectados. Un agente de programaciôn dinâmica adaptativa o ADP ( Adapta¬ 
tive Dynamic Programming ) trabaja aprendiendo el modelo de transiciones del entorno 
a medida que las recorre, y resolviendo el correspondiente proceso de decision de Mar- 
kov mediante un método de programaciôn dinâmica. Para un agente de aprendizaje pa- 
sivo, esto significa introducir el modelo de transiciones aprendido T(s, tt(s), s 1 ) y la 
recompensa observada R(s) en las ecuaciones de Bellman (21.2), para calcular las utili¬ 
dades de los estados. Como remarcamos en nuestra discusiôn sobre la iteraciôn de la po¬ 
litica del Capitulo 17, estas ecuaciones son lineales (no suponen maximizaciôn) asi que 
se pueden resolver usando cualquier paquete de âlgebra lineal. De forma alternativa, po¬ 
demos adoptar el enfoque de la iteraciôn de politicas modifîcado ( véase Apartado 17.4), 
usando un proceso simplificado de iteraciôn del valor para actualizar la utilidad estimada 
después de cada cambio en el modelo aprendido. Ya que el modelo normalmente cam¬ 
bia solo un poco con cada observaciôn, el proceso de iteraciôn del valor puede usar la 
utilidad estimada previamente como valor inicial y deberia converger mâs râpidamente. 

El proceso de aprendizaje del modelo en si mismo es sencillo, ya que el entorno es 
completamente observable. Esto significa que tenemos una tarea de aprendizaje super- 
visado donde la entrada es un par estado-acciôn y la salida es el estado résultante. En el 
caso mâs simple, podemos representar el modelo de transiciôn como una tabla de pro- 
babilidades. Manteniendo la frecuencia con la que ocurre cada acciôn de salida y esti- 
mando la probabilidad de transiciôn T(s, a, s') a partir de la frecuencia con la que se 
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alcanza s' cuando se ejecuta a en s * 1 . Por ejemplo, en las très trazas dadas en la pagina 873, 
Derecha se ejecuta très veces en (1, 3) y dos de cada très veces el estado résultante es 
(2, 3), as! se estima que T(( 1, 3), Derecha, (2, 3)) es 2/3. 

El programa de agente completo para un agente pasivo ADP se muestra en la Figu¬ 
ra 21.2. En la Figura 21.3 se muestra su funcionamiento en el mundo 3 X 4. En térmi- 
nos de la rapidez con que mejora su estimation del valor, el agente ADP hace lo mejor 
posible, sujeto a su habilidad de aprender el modelo de transiciones. En este sentido, pro- 
porciona un estândar con el que medir otros algoritmos de aprendizaje por refuerzo. Sin 
embargo, esto es en cierto modo intratable para grandes espacios de estados. En el 
backgammon, por ejemplo, conllevaria resolver aproximadamente 10 50 ecuaciones con 
10 50 variables desconocidas. 


Aprendizaje de diferencia temporal 



Es posible tener (casi) lo mejor de ambos mundos; es decir, uno puede aproximar las 
ecuaciones de restricciones mostradas anteriormente sin resolverlas para todos los po- 
sibles estados. La clave es usar las transiciones observadas para ajustai ' los valores 
de los estados observados para que seau acordes con las ecuaciones de restricciones. 
Considéré, por ejemplo, la transition desde (1, 3) a (2, 3) en la segunda prueba de la 
pagina 873. Suponga que, como resultado de la primera prueba, las utilidades estima- 


funciôn Agente-Pasivo-ADP (perception) devuelve una acciôn 

entradas: percepciôn, indica el estado actual s' y la senal de recompensa r' 
estâtica: t t, una polftica fija 

mdp, un MDP con modelo T, recompensas R, descuento y 
U, una tabla de utilidades, inicialmente vatia 

N sa , una tabla de frecuencias para pares estado-acciôn, inicialmente a cero 
N sas ,, una tabla de frecuencias para tripletas estado-acciôn-estado, inicialmente a cero 
s, a, el estado y la acciôn previa, inicialmente a nulo (null) 

si s' es nuevo entonces hacer U [Y | «— r' ; Aj.v'l <— r' 
si .$ no es nulo (null) entonces hacer 
incrementar N sa [s, a] y N sas .[s, a, s'] 
para cada t tal que N sas ,[s, a, t] no sea cero hacer 
T[s, a, t] - N sas ,[s, a, t] / N Js, a] 

U <— Determinaciôn-Valor(tt, U, mdp ) 

si Terminal?!^'] entonces s, a <— nulo (null) si no s, a *— s', tt [ 5 '] 

devolver a 


Figura 21.2 Un agente de aprendizaje por refuerzo pasivo basado en programaciôn dinâmica adap- 
tativa. Para simplificar el côdigo, hemos asumido que cada percepciôn puede dividirse en un esta¬ 
do percibido y una senal de recompensa. 


1 Esta es la estimation de mâxima verosimilitud, como se discutiô en el Capltulo 20. Una actualizaciôn Ba- 
yesiana con una distribution a priori Dirichlet funcionarfa mejor. 
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DIFERENCIA 

TEMPORAL 




Figura 21.3 Las curvas de aprendizaje pasivo ADP para el mundo 4X3, dada la politica optima 
mostrada en la Figura 21.1. (a) La utilidad estimada para un subconjunto de estados seleccionados, 
como una funciôn del numéro de pruebas. Nôtense los grandes cambios que ocurren alrededor de 
la prueba 78, esta es la primera vez que el agente cae en el estado terminal —1 en (4, 2). (b) La rafz 
del error cuadrado rnedio en la estimacion de 1/(1. 1), promediada sobre 20 ejecuciones de 100 prue¬ 
bas cada una. 


das son U"{\, 3) = 0,84 y U"(2, 3) = 0,92. Ahora, si esta transicion ocurriese todo el 
tiempo, esperarfamos que las utilidades obedecieran 

IT(1, 3) = —0,04 + IT(2, 3) 

as! que IT( 1, 3) séria 0,88. Asi, su actual estimacion de 0,84 podria ser un poco baja y 
deberia incrementarse. De forma mas general, cuando ocurre una transicion desde un es¬ 
tado s a otro estado s', aplicamos la siguiente actualizaciôn a U 77 (s): 

U v ( s) «- £T(s) + a(R(s) + ylT{ s') - tT(s)) (21.3) 

Aqui, a es el parâmetro de la tasa de aprendizaje. Ya que esta régla actualizada usa la 
diferencia de utilidades entre estados sucesivos; a menudo se denomina ecuacion de di- 

ferencia temporal o TD. 

La idea bâsica de todos los métodos de diferencia temporal es, primero définir las 
condiciones que se cumplen localmente cuando la estimacion de la utilidad es correcta, 
y enfonces, escribir y actualizar la ecuacion que mueve la estimacion hacia la ecuacion 
idéal de «equilibrio». En el caso del aprendizaje pasivo, el equilibrio viene dado por la 
Ecuacion (21.2). La Ecuacion (21.3) hace que el agente alcance el equilibrio dado por 
la Ecuacion (21.2), pero existe cierta sutileza en todo esto. Primero, nôtese que la ac¬ 
tualizacion solo implica al sucesor observado s', mientras que las condiciones reales de 
equilibrio implican a todos los posibles estados siguientes. Se podria pensar que esto cau¬ 
sa un gran cambio inapropiado en lT(s) cuando ocurre una transicion muy poco comün; 
pero, de hecho, ya que las transiciones poco comunes ocurren raramente, el valor mé¬ 
dia de U" (s) convergera al valor correcto. Ademâs, si cambiamos a de un parâmetro fijo 
a una funciôn que decrece a medida que incrementa el nümero de veces que un estado 
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ha sido visitado, U(s ) convergera al valor correcto 2 . Esto nos proporciona el programa 
de agente mostrado en la Figura 21.4. La Figura 21.5 ilustra el funcionamiento del 
agente pasivo TD en el mundo 4X3. No aprende tan râpido como el agente ADP y mues- 
tra variabilidad mas alta, pero es mas sencillo y requiere menos computacion por cada 
observacion. Nôtese que TD no necesita un modelo para Ilevar a cabo sus actualiza- 
ciones. El entorno proporciona las conexiones entre los estados vecinos en forma de tran- 
siciones observadas. 


funcion Agente-Pasivo-TD (percepciôn) devuelve una acciôn 

entradas: percepciôn, una percepciôn indica el estado actual s' y la senal de recompensa r' 
estâtica: t t, una polftica fijada 

U, una tabla de utilidades, inicialmente varia 

N s , una tabla de frecuencias por estados, inicialmente a cero 

s, a, r, el estado, la acciôn y la recompensa previa, inicialmente a nulo (null) 

si s' es nuevo entonces U\s' | <— r' 
si 5 no es nulo (null) entonces hacer 
incrementar N s [s] 

£/[s] <- t/[s] + a(N s [s])(r + y t/[.v'] - C/[s]> 
si Tf.rm[\al|,v'] entonces s, a, r <— nulo (null) si no s, a, r <— s’, i r [ 5 '], r' 

devolver a 


Figura 21.4 Un agente de aprendizaje por refuerzo pasivo que aprende estimaciones de la utili- 
dad usando diferencias temporales. 




Figura 21.5 Las curvas de aprendizaje TD para el mundo 4X3. (a) La utilidad estimada para un 
subconjunto seleccionado de estados, como una funciôn del numéro de pruebas. (b) La rafz del error 
cuadrado medio en la estimaciôn de i/(l, 1), promediada sobre 20 ejecuciones de 500 pruebas cada 
una. Solo se muestran las primeras 100 pruebas para permitir la comparaciôn con la Figura 21.3. 


2 Técnicamente, se requiere que 2“= i«(n) = OO y 2“= i“ 2 («) < 00 . El decrecimiento de ct(n) = 1 / n satis- 
face estas condiciones. En la Figura 21.5 hemos usado a{n) = 60/(59 + n). 
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BARRIDO CON 
PRIORIDAD 


El enfoque ADP y el enfoque TD estân realmente muy relacionados. Ambos in- 
tentan hacer ajustes locales a la utilidad estimada para hacer que cada estado «esté 
de acuerdo» con sus sucesores. Una diferencia es que TD ajusta un estado para que 
esté de acuerdo con su sucesor observado (Ecuacion (21.3)), mientras que ADP ajus¬ 
ta el estado para que esté de acuerdo con todos los sucesores que pudieran ocurrir, 
ponderados por sus probabilidades (Ecuacion (21.2)). Esta diferencia desaparece 
cuando los efectos de los ajustes TD se promedian para un gran nümero de transi- 
ciones, ya que la frecuencia de cada sucesor en el conjunto de transiciones es apro- 
ximadamente proporcional a su probabilidad. Una diferencia mas importante es que 
mientras TD hace un ünico ajuste por cada transicion observada, ADP hace tantos 
como necesite para restaurai' la consistencia entre la utilidad estimada U y el mode- 
lo del entorno T. Aunque la transicion observada hace solo un cambio local en T, sus 
efectos deberfan ser propagados a través de U. Por ello, TD se puede ver como una 
tosca, pero eficiente, primera aproximacion a ADP. 

Cada ajuste que hace ADP se puede ver, desde el punto de vista de TD, como un 
resultado de una «pseudo-experiencia» generada a través de la simulacion del mo- 
delo actual del entorno. Es posible extender el enfoque de TD para usar un modelo 
del entorno para generar varias pseudo-experiencias, transiciones que el agente TD 
puede imaginar que pudieran ocurrir, proporcionândolas al modelo actual. Para cada 
transicion observada, el agente TD puede generar un gran nümero de transiciones 
imaginarias. De esta forma, la utilidad estimada résultante se aproximarâ mas y mas 
a la de ADP; por supuesto, con el precio de un incremento del tiempo de computa- 
cion. 

En una linea similar, se pueden generar versiones mas eficientes de ADP apro- 
ximando directamente los algoritmos para iteracion de valores o iteracion de politi- 
cas. Recuérdese que la iteracion compléta de los valores puede ser intratable cuando 
el nümero de estados es grande. Muchos de los pasos de ajuste, sin embargo, son ex- 
tremadamente pequenos. Un enfoque posible para generar respuestas razonable- 
mente buenas de forma râpida es limitar al nümero de ajustes que se hacen después 
de cada transicion observada. También se puede usar una heurfstica para ordenar los 
posibles ajustes y asi llevar a cabo solo los mas significativos. Segün la heuristica 
del barrido con prioridad es preferible hacer ajustes a estados cuyos sucesores pro¬ 
bables han experimentado un gran numéro de ajustes en su propia estimacion de uti¬ 
lidad. Usando heuristicas como estas, los algoritmos ADP aproximados pueden 
aprender casi tan râpido como el ADP completo, en términos del nümero de se- 
cuencias de entrenamiento, pero pueden ser varios ordenes de magnitud mas eficientes 
en términos de computacion. (Véase Ejercicio 21.3.) Esto les permite manejar es- 
pacios de estados que son demasiado grandes para el ADP completo. Los algoritmos 
ADP aproximados tienen una ventaja adicional: en los primeros pasos del aprendi- 
zaje de un nuevo entorno, el modelo del entorno T a menudo estarâ lejos del correcto, 
asi que hay un pequeno problema en el câlculo de una funcion de utilidad exacta. 
Un algoritmo aproximado puede usar un tamano de ajuste minimo que decrezca a 
medida que el modelo del entorno es mas preciso. Esto élimina las iteraciones de va- 
lor muy largas que pueden ocurrir al principio del aprendizaje debido a los grandes 
cambios en el modelo. 
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21.3 Aprendizaje por refuerzo activo 


Un agente de aprendizaje pasivo tiene una politica fija que détermina su comportamiento. 
Un agente activo debe decidir qué acciones tomar. Empecemos con un agente de pro- 
gramaciôn dinâmica adaptativa y consideremos cômo debe ser modificado para mane- 
jar este nuevo grado de libertad. 

Primero, el agente necesitarâ aprender un modelo completo con salidas probabilisti- 
cas para todas las acciones, en vez de aprender solo el modelo para la politica fija. El me- 
canismo de aprendizaje sencillo que usa el Agente-Pasivo- ADP hace esto bien. Luego, 
necesitamos tener en cuenta el hecho de que el agente tiene que realizar la elecciôn en¬ 
tre las acciones. Las utilidades que necesita aprender son las definidas por la politica op¬ 
timal que obedecen la ecuaciôn de Bellman dada en el Apartado 17.2, que repetimos aqui: 

t/0) - R(s) + y max 2 T (s, a, s')U(s') (21.4) 

a s' 

Estas ecuaciones se pueden resolver para obtener la funciôn de utilidad U usando los al- 
goritmos de iteraciôn de valor o de iteraciôn de politica del Capitulo 17. Finalmente hay 
que determinar qué hacer en cada paso. Habiendo obtenido una funciôn de utilidad U que 
es ôptima para el modelo que se esta aprendiendo, el agente puede extraer una acciôn ôp- 
tima a partir' de «un paso de mirar hacia delante» para maximizar la utilidad esperada; de 
forma alternativa, si se usa iteraciôn de la politica, la politica ôptima ya esta disponible, 
asi que simplemente deberia ejecutar la acciôn que recomienda la politica ôptima. / O no? 


Exploraciôn 

La Figura 21.6 muestra los resultados de una secuencia de pruebas para un agente ADP 
que sigue las recomendaciones de una politica ôptima para el modelo aprendido en cada 
paso. jEl agente no aprende las verdaderas utilidades o la politica ôptima verdadera! Lo 
que ocurre en lugar de esto es que, en la pmeba 39, encuentra una politica que alcanza 
la recompensa +1 a través de la ruta mas corta por (2, 1), (3, 1), (3, 2) y (3, 3). (Véase 
la Figura 21.6.) Después de experimentos con variaciones minimas, a partir de la prue- 
ba 276 en adelante se queda parado en esa politica, sin aprender las utilidades de los otros 
estados y sin encontrar la mta ôptima a través de (1, 2), (1, 3) y (2, 3). A este agente se 
agente voraz le denomina agente voraz. Los experimentos repetidos muestran que el agente voraz mm 

vez converge a la politica ôptima para este entorno y algunas veces converge a politicas 
realmente horrorosas. 

/ ; Cômo puede ser que elegir la acciôn ôptima lleve a resultados subôptimos? La res- 
puesta es que el modelo aprendido no es el mismo que el entorno real; por lo tanto lo 
que es ôptimo en el modelo aprendido puede ser subôptimo en el entorno real. Desa- 
fortunadamente, el agente no sabe cuâl es el entorno real, asi que no puede calcular la 
acciôn ôptima para el mismo. Enfonces, <'t|ué se debe hacer? 

Lo que el agente voraz ha pasado por alto es que las acciones ademâs de proporcio- 
nar recompensas de acuerdo con el modelo aprendido actual, también contribuyen al 
aprendizaje del modelo verdadero, influyendo en las percepciones que se reciben. Me- 
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EXPLOTACIÔN 

EXPLORACIÔN 


PROBLEMAS DEL 
BANDIDO 


GLIE 



Nümero de pruebas 


(a) 
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(b) 


Figura 21.6 Funcionamiento de un agente voraz que ejecuta la acciôn recomendada por la polf- 
tica optima del modelo aprendido. (a) Error RMS en la utilidad estimada promediada sobre los nue- 
ve cuadrados no terminales, (b) La polftica suboptima a la que el agente voraz converge en esta 
particular secuencia de pruebas. 


jorando el modelo, el agente recibirâ mejores recompensas en el futuro 3 . Por ello, un agen¬ 
te debe tener un compromiso entre la explotaciôn para maximizar su recompensa (se- 
gün refleja su estimaciôn actual de la utilidad) y la exploraciôn para maximizar su buen 
comportamiento a largo plazo. Los riesgos de la explotaciôn pura estân estancados. La 
exploraciôn pura para mejorar el conocimiento de uno mismo no tiene sentido si uno nun- 
ca pone dicho conocimiento en prâctica. En el mundo real, constantemente se tiene que 
decidir entre continuar en una confortable existencia o entrar en lo desconocido con la 
esperanza de descubrir una vida nueva y mejor. Con un buen entendimiento, se necesi- 
ta menos exploraciôn. 

^Podemos ser un poco mas precisos que esto? £ Existe una politica de exploraciôn 
optima? Résulta que esta pregunta ha sido estudiada en profundidad en el subcampo de 
la teoria de la decision estadistica que conduce a los denominados problemas del ban- 
dido. (Véase al lado.) 

Aunque los problemas del bandido son extremadamente dificiles de resolver con exac- 
titud para obtener un método de exploraciôn optima, sin embargo es posible que surja 
un esquema razonable que nos conducirâ eventualmente a un comportamiento ôptimo 
por parte del agente. Técnicamente, cualquier esquema necesita ser voraz en el limite 
de infinitas exploraciones, o GLIE. Un esquema GLIE debe intentar cada acciôn en cada 
estado un nümero ilimitado de veces para evitar tener una probabilidad finita de que una 
acciôn optima se pierda por unas sériés malas de resultados atipicos. Un agente ADP 
que use dicho esquema aprenderâ eventualmente el modelo del entorno real. Un esque¬ 
ma GLIE también debe convertirse eventualmente en voraz, as! las acciones del agente 
se convertirân en ôptimas respecto al modelo aprendido (y por ello el verdadero). 


3 

" Notese la directa analogia con la teoria del valor de la informaciôn del Capltulo 16. 
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Exploraciôn y bandidos 

En Las Vegas, un bandido con un solo brazo es una mâquina tragaperras. Un jugador puede insertar una 
moneda, tirar de la palanca, y recoger las ganancias (si hay). Un bandido con «-brazos tiene n palancas. 
El jugador debe elegir con qué palanca jugar para cada moneda sucesiva, /,1a que mayor beneficios haya 
dado, o quizâ con la que no haya intentado? 

El problema del bandido con n -brazos es un modelo formai para problemas reales en muchas areas de 
importancia vital, taies como decidir el presupuesto anual para la investigation en IA y su desarrollo. Cada 
brazo corresponde a una action (tal como colocar 20 millones de dôlares para el desarrollo de nuevos li¬ 
bres de IA), y el resultado de tirar del brazo corresponde a los beneficios obtenidos de tomar la accion (in- 
mensos). La exploraciôn, si es exploraciôn de un nuevo campo de investigacion o exploraciôn de un nuevo 
complejo de tiendas, es arriesgada, es cara, y tiene desenlaces inciertos; por otro lado, no explorar nada sig- 
nifica que uno nunca descubrirâ ningunas acciones que merezcan la pena. 

Para formular un problema del bandido con propiedad, se debe définir exactamente qué se entiende por 
comportamiento ôptimo. La mayoria de las definiciones en la literatura asumen que el propôsito es maxi- 
mizar la recompensa total esperada en el tiempo de vida del agente. Estas definiciones requieren que el va- 
lor esperado sea tomado de los posibles mundos en los que el agente pudiera estar, al igual que de los posibles 
resultados de cada secuencia de accion en cualquier mundo dado. Aqui, un «mundo» se define por el mo¬ 
delo de transiciones T(s, a, s'). Por ello, para poder actuar de forma ôptima, el agente necesita una distribu¬ 
tion a priori de los posibles modelos. Los problemas de optimizaciôn résultantes son normalmente intratablcs. 

En algunos casos (por ejemplo, cuando la ganancia de cada mâquina es independiente y se utilizan des- 
cuentos en las recompensas) es posible calcular el indice Gittins para cada mâquina tragaperras (Gittins, 
1989). El indice es una funciôn del numéro de veces que se ha jugado con la mâquina tragaperras y de la 
ganancia que ha proporcionado. El indice para cada mâquina indica en qué medida merece la pena invertir 
mâs, basândose en una combination de la respuesta esperada y el valor esperado de la information. Elegir 
la mâquina con el valor del indice mâs alto proporciona una politica de exploraciôn ôptima. Desafortuna- 
damente, no ha habido forma de extender los indices de Gittins a problemas de decision secuenciales. 

Se puede usar la teoria de los bandidos con «-brazos para argumentar la sensatez de la estrategia de sé¬ 
lection en los algoritmos genéticos. (Véase Capitulo 4.) Si se considéra cada brazo en el problema del ban¬ 
dido con «-brazos como una posible cadena de genes, y la inversion de una moneda en un brazo como la 
reproduction de dichos genes, los algoritmos genéticos colocan las monedas de forma ôptima, proporcio- 
nando un conjunto apropiado de asunciones de independencia. 


Existen varios esquemas GLIE; uno de los mâs sencillos consiste en permitir que el 
agente elija una action aleatoria una fraction \/t del tiempo y que siga la politica avara 
en el resto de los casos. Aunque esto converge eventualmente a una politica ôptima, pue¬ 
de ser extremadamente lento. Un enfoque mâs sensato proporcionaria algün peso a las 
acciones que el agente no ha intentado muy a menudo, mientras que tenderia a evitar las 
acciones que tienen una baja utilidad. Esto puede ser implementado alterando la ecua- 
ciôn de restriction (21.4) para que asigne una mayor estimaciôn de la utilidad a pares 
estado-acciôn inexplorados. Esencialmente, esto alcanza una distribution a priori opti- 
mista sobre los posibles entornos y hace que el agente se comporte inicialmente como 
si tuviera recompensas maravillosas dispersas por todos los lugares. Usaremos U + (s) para 
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denotar la estimacion optimista de la utilidad (es decir, la «recompensa por llegar» es- 
perada) del estado s, y sea N(a, s) el nümero de veces que la acciôn a se ha intentado en 
s. Suponga que estamos usando iteraciôn del valor en un agente de aprendizaje ADP; 
enfonces necesitamos reescribir la ecuacion de actualizaciôn (es decir, la Ecuacion 
(17.6)) para incorporar la estimacion optimista. La siguiente ecuacion hace esto: 


FUNCIÔN 

EXPLORACIÔN 


U + (s) <— R(s) + ymax /( 2 T(s,a,s')U + (s '), N(a,s) ] 

a V / (21.5) 

A f(u, n) se le denomina funciôn exploraciôn. Détermina el compromiso entre la vora- 
cidad (preferencia por valores altos de u) y la curiosidad (preferencia por valores bajos 
de n: acciones que no se intentan a menu do). La funciôn/(w, n) deberia ser incrementa- 
da en u y decrementada en n. Obviamente, existen muchas funciones posibles que cum- 
plen estas condiciones. Una definiciôn particular sencilla es 


f{u,n) 


R + if n<N e 
u en otro caso 


donde R + es una estimacion optimista de la mejor recompensa posible que se puede ob- 
tener en cualquier estado y N e es un paramétra fijo. Esto tendra el efecto de hacer que 
el agente intente cada par acciôn-estado al menos N e veces. 

El hecho de que aparezca U + en vez de U en el lado derecho de la Ecuacion (21.5) es 
muy importante. Mientras que la exploraciôn continua, los estados y las acciones cerca- 
nas al estado de comienzo deberfan intentarse un gran nümero de veces. Si usâramos U, 
la estimacion de utilidad mas pesimista, enfonces râpidamente el agente no estaria dis- 
puesto a explorar mas. El uso de U + supone que los beneficios de la exploraciôn se pro- 
paguen hacia atrâs desde los bordes de las regiones sin explorar, asi las acciones que llevan 
hacia regiones inexploradas tienen mas peso, en vez de las que no resultan familiares. El 
efecto de esta politica de exploraciôn se puede ver de forma clara en la Figura 21.7, que 
muestra una convergencia râpida a un rendimiento ôptimo, a diferencia del enfoque vo- 
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Figura 21.7 Funcionamiento de un agente ADP con exploraciôn, usando R + = 2 y N e = 5. (a) Es- 
timaciôn de la utilidad para estados seleccionados sobre el tiempo. (b) El error RMS en los valo¬ 
res de la utilidad y la politica asociada perdida. 
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raz. Después de solo 18 pruebas se encuentra una politica cercana a la ôptima. Nôtese que 
la propia estimaciôn de la utilidad no converge tan râpidamente. Esto es porque el agen¬ 
te déjà de explorar las partes del espacio de estados que no tienen recompensa, visitân- 
dolos solo «por accidente». Sin embargo, para el agente tiene perfecto sentido no 
preocuparse por las utilidades exactas de los estados que no son deseables y pueden ser 
evitados. 


Aprendizaje de una Funciôn Acciôn-Valor 



Ahora que tenemos un agente ADP activo, consideremos como construir un agente de 
aprendizaje activo de diferencia temporal. El cambio mas obvio del caso pasivo es que 
el agente no esta equipado con una politica fija, asi que, si aprende una funciôn de uti¬ 
lidad U, necesitarâ aprender un modelo para ser capaz de elegir una acciôn basada en U 
a través de un paso de mirada hacia delante. El problema de la adquisiciôn del modelo 
para el agente TD es idéntico al del agente ADP. / ; Qué actualizaciôn del TD se régula a 
si misma? Quizâ sorprendentemente, la régla de actualizaciôn (21.3) permanezca sin cam- 
bios. Esto puede parecer extrano, por la siguiente razôn: suponga que el agente realiza 
un paso que normalmente le lleva a un buen destino, pero debido a un entorno no de- 
termimstico el agente acaba en un estado catastrôfico. La régla de actualizaciôn TD to- 
marâ esto tan seriamente como si el resultado hubiese sido el resultado normal de la 
acciôn, mientras que uno supondria que, ya que el resultado fue casual, el agente no de- 
beria preocuparse demasiado por ello. De hecho, por supuesto, ocurrirâ un resultado im¬ 
probable solo de forma infrecuente en un gran conjunto de secuencias de entrenamiento; 
por lo tanto en ejecuciones largas sus efectos serân ponderados de forma proporcional 
a su probabilidad, como esperariamos. Otra vez, puede mostrarse que el algoritmo TD 
convergera a los mismos valores que ADP cuando el numéro de secuencias de entrena¬ 
miento tiende a infinito. 

Existe un método TD alternative denominado aprendizaje-Q que aprende una re- 
presentaciôn acciôn-valor en vez de aprender utilidades. Usaremos la notaciôn Q(a, 5 ) 
para denotar el valor de realizar la acciôn a en el estado 5 . Los valores-Q estân directa- 
mente relacionados con los valores de utilidad de la siguiente forma: 

U(s) = maxQ(a,s) ^ ^ 

Las funciones-g parecen otra forma de almacenar informaciôn de utilidad, pero tienen 
una propiedad importante: un agente TD que aprende una funciôn-Q no necesita un mo¬ 
delo ni para el aprendizaje ni para la selecciôn de acciones. Por esta razôn, el aprendi- 
zaj e-Q se denomina método libre de modelo ( model-free ). Como con las utilidades, 
podemos escribir una ecuaciôn de restricciôn que se mantenga en el equilibrio cuando 
los valores-Q sean correctos: 

Q{a, s) = R(s) + y ^ T(s, a, s') max Q{a', s') 

s' (21.7) 

Como en el agente de aprendizaje ADP, podemos usar esta ecuaciôn directamente como 
una ecuaciôn de actualizaciôn para un proceso iterativo que calcule los valores-g exac¬ 
tes, dado un modelo estimado. Esto hace, sin embargo, que se requiera también el 
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aprendizaje del modelo, ya que la ecuaciôn usa T(s, a, s'). El enfoque de diferencia tem¬ 
poral, por otro lado, no requiere ningün modelo. La ecuaciôn de actualizaciôn para el 
aprendizaje-(2 TD es 

Q(a,s)<—Q(a,s) + a(R(s) + ymaxQ(a',s')-Q(a,s)) ^ g 

que se calcula siempre que se ejecuta una acciôn a en el estado 5 que conduce al estado s'. 

En la Figura 21.8 se muestra el diseno completo del agente para un agente de apren- 
dizaje-<2 exploratorio que usa TD. Nôtese que usa exactamente la misma funciôn de ex- 
ploraciôn/que la usada por el agente ADP exploratorio, de ahr la necesidad de mantener 
las estadisticas de las acciones tomadas (la tabla AO. Si se usa una politica de explora- 
ciôn simple (es decir, actuar aleatoriamente en algunos pasos, donde el nümero de pa- 
sos decrece con el tiempo) podemos prescindir de las estadisticas. 

El agente de aprendizaje-Q aprende la politica ôptima para el mundo 4X3, pero lo 
hace mas lentamente que el agente ADP. Esto es porque TD no obliga a que se cumpla 
la consistencia entre los valores a través del modelo. La comparaciôn plantea una cues- 
tiôn general: /es mejor aprender un modelo y una funciôn de utilidad que aprender una 
funciôn acciôn-valor sin modelo? En otras palabras, /puai es la mejor forma de repre- 
sentar la funciôn del agente? Este es un aspecto de bâsico de la inteligencia artifrcial. 
Como empezamos en el Caprtulo 1, una de las caracteristicas claves de la historia de la 
mayorfa de la investigaciôn en IA es su adherencia al enfoque basado en el conocimiento. 
Esto équivale a la asunciôn de que la mejor forma de representar la funciôn del agente 
es construir una representaciôn de algunos aspectos del entomo en el cual el agente esta 
ubicado. 

Algunos investigadores, tanto dentro como fuera de IA, han reivindicado que la 
disponibilidad de métodos libres de modelo taies como el aprendizaje-f? significa que 
el enfoque basado en el conocimiento es innecesario. Sin embargo, esta intuiciôn esta 
poco justificada. Nuestra intuiciôn, sobre lo que merece la pena, dice que cuando el 


funciôn Agente-Aprendizaje-Q (perception ) devuelve una acciôn 

entradas: perception , una percepciôn indica el estado actual s' y la senal de recompensa r' 
estâtica: Q, una tabla de valores de acciôn indexada por el estado y la acciôn 
N m , una tabla de frecuencias de los pares estado-acciôn 
s, a, /•, el estado, la acciôn y la recompensa previa, inicialmente nulos 

si s no es nulo entonces hacer 

incrementar N sa [s, a\ 

g[.v, a] <— Q[a, s] + a (/VJ,s, a \) (r + y max fl , Q [a', s’] - Q[a, .v]) 
si Terminal?[s'] entonces s, a, r <— nulo 
si no s, a, r*— s', argmax a , f(Q[a', 5']. A/J ci, T], r' 

devolver a 


Figura 21.8 Un agente de aprendizaje-Q exploratorio. Es un aprendizaje activo que aprende el 
valor Q(a, .y) de cada acciôn en cada situaciôn. Usa la misma funciôn de exploraciôn/que el agen¬ 
te ADP exploratorio, pero évita tener que aprender el modelo de transiciones ya que el valor -Q de 
un estado se puede relacionar directamente con los de sus vecinos. 
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entorno se convierte en mas complejo, las ventajas de un enfoque basado en el cono- 
cimiento se manifiestan mas. Esto ocurre incluso en juegos como el ajedrez, las da¬ 
mas, y el backgammon (véase la siguiente secciôn), donde los esfuerzos para aprender 
una funciôn de evaluaciôn mediante un modelo han tenido mas éxito que los métodos 
de aprendizaje-<2. 


21.4 Generalizaciôn en aprendizaje por refuerzo 


Hasta ahora, hemos asumido que las funciones de utilidad y las funciones-Q aprendidas 
por los agentes se representan en forma tabular, con un valor de salida para cada tupla 
de entrada. Este enfoque funciona razonablemente bien para espacios de estados pe- 
quenos, pero el tiempo de convergencia y (para ADP) el tiempo por iteraciôn se incre- 
menta râpidamente a medida que el espacio se hace mas grande. Con un control 
cuidadoso, los métodos ADP aproximados pueden hacer posible el manejo de 10.000 
estados o mas. Esto es suficiente para entornos bidimensionales como el del laberinto, 
pero los mundos mas realistas se quedan fuera. El ajedrez y el backgammon son un pe- 
queno subconjunto del mundo real, sus espacios de estados contienen del orden de 10 5CI 
a 10 120 estados. jSeria absurdo suponer que se pueden visitar todos estos estados para 
aprender como jugar al juego! 

™ CI0N ° E Una forma de manejar estos problemas es utilizar aproximaciôn de funciones, que 

consiste en representar la funciôn de forma distinta a una tabla. La representaciôn se ve 
como una aproximaciôn porque puede no darse el caso de que la funciôn verdadera de 
utilidad o funciôn-g se pueda representar en la forma elegida. Por ejemplo, en el Capi- 
tulo 6 se describiô una funciôn de evaluaciôn para el ajedrez que se représenta como una 

funciones base funciôn lineal ponderada de un conjunto de caracteristicas (o funciones base)/,,...,/,: 

Û e (s) = ej l (s) + d 2 f 2 + --- + d n f n (s) 



Un aprendizaje por refuerzo puede aprender valores para los parâmetros 6 = 0,,..., 6 n de 
forma que la funciôn de evaluaciôn Û e aproxime la funciôn de utilidad verdadera. En 
vez de 10 120 valores en la tabla, esta aproximaciôn se caracteriza por n = 20 parâmetros, 
una compresiôn enorme. Aunque nadie conoce la verdadera funciôn de utilidad para el 
ajedrez, nadie se créé que se pueda representar exactamente con 20 numéros. Sin em¬ 
bargo, si la aproximaciôn es lo suficientemente buena, el agente podrâ jugar un ajedrez 
excelente 4 . 

La aproximaciôn de funciones es prâctica para representar funciones para espacios 
de estados muy grandes, pero éste no es su beneficio principal. La compresiôn que se 
consigne con un aproximador de una funciôn permite al agente de aprendizaje genera- 
lizar a partir de estados que ha visitado a estados que no ha visitado. Esto es, el aspecto 


4 Sabemos que la funciôn de utilidad exacta se puede representar en una pagina o dos de Lisp, Java o C++. 
Esto es, se puede representar por un programa que resuelva el juego de forma exacta cada vez que es llama- 
do. Estamos interesados solo en funciones de aproximaciôn que utilicen una cantidad de câlculo razonable. 
De hecho, podrla ser mejor aprender una aproximaciôn de funciôn muy simple, y combinarla con cierta can¬ 
tidad de büsqueda hacia delante. Los inconvenientes que esto implica todavla no se conocen bien. 
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mas importante de la aproximacion de funciones no es que requiera menos espacio, sino 
que permite hacer generalizaciôn inductiva sobre los espacios de entrada. Para darle una 
idea de la potencia de este efecto: examinando solo uno de cada 10 44 de los posibles es- 
tados del backgammon, es posible aprender una funciôn de utilidad que permite a un pro- 
grama jugar tan bien como los humanos (Tesauro, 1992). 

Por otro lado, por supuesto, esta el problema de que pudiera no haber una funciôn 
en el espacio de hipôtesis elegido que aproximara suficientemente bien la funciôn de uti¬ 
lidad verdadera. Como en todo aprendizaje inductivo, hay un compromiso entre el ta- 
mano del espacio de hipôtesis y el tiempo que se toma para aprender la funciôn. Un 
espacio de hipôtesis grande incrementa la probabilidad de que se encuentre una buena 
aproximacion, pero también supone que la convergencia se retrase. 

Comencemos con el caso mas simple, que es una estimaciôn directa de la utilidad. 
('Véase el Apartado 21.2). Con aproximacion de funciones, esto es una instancia de apren¬ 
dizaje supervisado. Por ejemplo, suponga que representamos las utilidades para el 
mundo 4X3 utilizando una funciôn lineal simple. Las caracteristicas de los cuadrados 
son exactamente sus coordenadas x e y, tenemos 

Û e (x,y) = 6 0 +d 1 x + 6 2 y (21.9) 

Asf, si (0 O , 0j, 0 2 ) = (0, 5, 0,2,0, 1), entonces Û fl (l, 1) = 0,8. Dada una colecciôn de prue- 
bas, obtenemos un conjunto de valores de muestra Û e (x, y) y podemos encontrar el me- 
jor ajuste, en el sentido de minimizar el error cuadrado, utilizando regresiôn lineal 
estândar. ( Véase Capitulo 20). 

Para el aprendizaje por refuerzo, tiene mas sentido utilizar un algoritmo de apren¬ 
dizaje en lînea que actualice los paramétras después de cada praeba. Suponga que eje- 
cutamos una prueba y la recompensa total obtenida empezando en (1, 1) es 0,4. Esto 
sugiere que Û e (1, 1), actualmente con valor 0,8, es muy grande y debe ser reducido. 
/Como se deben ajustar los parâmetros para conseguir esto? Como con el aprendizaje 
de redes neuronales, escribimos una funciôn de error y calculamos su gradiente respec¬ 
ta a los parâmetros. Si la recompensa total observada desde el estado s hacia delante en 
la j-ésima prueba es u(s), el error se define como (la mitad) de la diferencia al cuadra¬ 
do entre el total predicho y el total actual: E(s) = (LJ 0 (s) — u(s)) 2 /2. La tasa de cambio 
del error respecto a cada paramétra 6 i es dEj/dd^ por lo tanto, para variar el parâmetro 
en la direcciôn en que el error se décrémenta, queremos 

dEAs) „ dû A s) 

e, <- 0, - a - = 0,. + a( Uj (s) - U e (s))-±- (21.10) 

Esta se denomina régla de Widrow-Hoff, o régla delta, para mmimos cuadrados en lî¬ 
nea. Para el aproximador lineal de funciôn Û B ( 5 ) en la Ecuaciôn (21.9) obtenemos très 
sencillas réglas de actualizaciôn: 

0 O 0 O +a(Uj(s)-Û g (s)) 

0i <— 9 l +a(Uj(s) — Û e (s))x 
0 2 <^0 2 + a(Uj(s)-Û g (s))y 
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Podemos aplicar estas réglas al ejemplo donde Û e (1, 1) es 0,8 y « ; (1 , 1) es 0,4. 6 0 , 6 l y 
# 2 se decrementan todas en 0,4a, lo que reduce el error para (1, 1). Observe que jcam- 
biar las 6 s también modifica los valores de U g para cada uno de los otros estadosl Esto 
es lo que queremos decir cuando decimos que la aproximaciôn de funciôn permite a un 
sistema de aprendizaje por refuerzo generalizar a partir de sus experiencias. 

Esperamos que el agente aprenda mas râpidamente si utiliza un aproximador de fun¬ 
ciôn, dado que el espacio de hipôtesis no es muy grande, pero incluye algunas funcio- 
nes que son, de forma razonable, un buen ajuste de la funciôn de utilidad verdadera. El 
Ejercicio 21.7 le invita a evaluar el rendimiento de la estimaciôn directa de la utilidad, 
de ambas formas, utilizando y sin utilizar aproximador de funciôn. La mejora en el mun- 
do 4 X 3 es notable, pero no dramâtica, porque es un espacio de estados muy pequeno 
para comenzar con él. La mejora es mucho mayor en un mundo 10 X 10 con una re¬ 
compensa de +1 en (10, 10). Este mundo esta bien adecuado para una funciôn de utili¬ 
dad lineal, porque la funciôn de utilidad verdadera es plana y prâcticamente lineal. 
('Véase Ejercicio 21.10). Si ponemos una recompensa de +1 en (5, 5), la funciôn de uti¬ 
lidad verdadera es mas parecida a una pirâmide, y lamentablemente, el aproximador de 
funciôn fallarâ. ;Sin embargo, no esta todo perdido! Recuerde que lo que pasa en la apro¬ 
ximaciôn de funciones lineal es que la funciôn es lineal en los parâmetros; las caracte- 
rfsticas en si mismas pueden ser funciones arbitrarias no lineales de las variables de estado. 

Asi que podemos incluir un término como d 3 — 3 J(x — x g ) 2 + (y — y g ) 2 que mida la dis¬ 
tancia a la meta. 

Estas ideas se pueden aplicar igualmente a sistemas de aprendizaje de diferencia tem¬ 
poral. Todo lo que necesitamos hacer es ajustar los parâmetros e intentar reducir la di¬ 
ferencia temporal entre estados sucesivos. Las nuevas versiones de las ecuaciones TD y 
aprendizaje-Q (21.3 y 21.8) son 

dÛ As) 

6, <- 6, + a[R(s) + yU e (s') - U e (s)]—— 

36 ' ( 21 . 11 ) 

para utilidades y 

- - dQAa, s) 

6 i <- 6 i +a[R(s) + ymaxQ g (a', s')~Q g {a, s)]——- 

36 > ( 21 . 12 ) 

para valores-g. Se puede demostrar que estas réglas de actualizaciôn convergen a la apro¬ 
ximaciôn mas cercana posible 5 a la funciôn verdadera, cuando la funciôn es lineal en 
los parâmetros. Desafortunadamente no se puede decir lo mismo cuando se utilizan fun¬ 
ciones no lineales, como redes neuronales. Hay algunos casos simples en los que los pa¬ 
râmetros pueden irse a infinito, incluso aunque haya buenas soluciones en el espacio de 
hipôtesis. Hay algoritmos mâs sofisticados que evitan estos problemas, pero actualmente 
en el aprendizaje por refuerzo con aproximadores generales de funciones sigue siendo 
un arte delicado. 

La aproximaciôn de funciones puede ser también muy ütil para aprender un mode- 
lo del entorno. Recuerde que aprender un modelo de un entorno observable es un pro- 


5 La definiciôn de distancia entre funciones de utilidad es bastante técnica; véase Tsitsiklis y Van Roy (1997). 
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blema de aprendizaje supervisado, porque la siguiente percepciôn proporciona el esta- 
do resultado. Se puede utilizar cualquiera de los métodos de aprendizaje supervisado del 
Capitulo 18, con los ajustes adecuados para tener en cuenta el hecho de que necesita- 
mos predecir una descripciôn compléta del estado en vez de una clasificaciôn booleana 
o un valor real simple. Por ejemplo, si el estado se define mediante n variables boolea- 
nas, necesitaremos aprender n funciones booleanas para predecir todas las variables. Para 
un entomo parcialmente observable, el problema del aprendizaje es mucho mas dificil. 
Si sabemos cuântas variables ocultas hay, y cômo se relacionan de forma causal con otras 
variables observables, podemos fijar la estructura de una red Bayesiana dinâmica y uti¬ 
lizar el algoritmo EM para aprender los paramétras, como describimos en el Capitulo 
20. La invenciôn de las variables ocultas y el aprendizaje de la estructura del modelo aün 
son problemas abiertos. 

Ahora volvemos a ejemplos de aplicaciones de gran escala del aprendizaje por re- 
fuerzo. Veremos que, en los casos en que se utiliza una funciôn de utilidad (y por lo tan- 
to un modelo), normalmente el modelo se toma como dado. Por ejemplo, en el aprendizaje 
de una funciôn de evaluaciôn para el backgammon, normalmente se asume que son co- 
nocidos sus movimientos legales y sus efectos. 


Aplicaciones a juegos 

La primera aplicaciôn significativa del aprendizaje por refuerzo fue también el primer 
problema significativo de aprendizaje en general, el programa jugador de ajedrez escri- 
to por Arthur Samuel (1959, 1967). Inicialmente, Samuel utilizô una funciôn lineal pon- 
derada para la evaluaciôn de las posiciones, utilizando hasta 16 términos en un momento 
dado. El aplicô una version de la Ecuaciôn (21.11) para actualizar los pesos. Sin embargo, 
existen algunas diferencias significativas entre su programa y los métodos actuales. Pri¬ 
mera, él actualizaba los pesos utilizando la diferencia entre el estado actual y el valor 
almacenado generado mediante büsqueda hacia delante compléta en el ârbol de büsqueda. 
Esto funciona bien, porque équivale a ver el espacio de estados con diferente granulari- 
dad. Una segunda diferencia es que ;el programa no utilizaba ninguna recompensa ob- 
servada! Esto es, los valores de los estados terminales eran ignorados. Esto significa que 
es bastante posible que el programa de Samuel no converja, o que converja a una estra- 
tegia disenada para perder en vez de para ganar. Para evitar esta suerte, él insistia en que 
los pesos para tener ventaja material deben ser siempre positivos. Sorprendentemente, 
esto era suficiente para dirigir el programa hacia areas del espacio de pesos correspon- 
dientes a un buen jugador de ajedrez. 

El sistema TD-Gammon de Gerry Tesauro (1992) ilustra, de forma contundente, el 
potencial de las técnicas de aprendizaje por refuerzo. En sus primeras trabajos (Tesau¬ 
ro y Sejnowski, 1989), Tesauro intenté aprender una representaciôn de red neuronal de 
Q(a, s), directamente a partir de ejemplos de movimientos etiquetados por un experto 
con valores relativos. Este enfoque résulté extremadamente tedioso para el experto. Dio 
lugar a un programa denominado Neurogammon, que fue fuerte con los estândar de com- 
putador, pero no competitivo contra expertos humanos. El proyecto TD-Gammon fue un 
intenta de aprender ünicamente a partir del juego propio. La ünica senal de recompen- 
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EL CARRO Y LA 
PÉRTIGA 

PÉNDULO INVERTIDO 


CONTROL BANG-BANG 


sa se daba al final de cada juego. La funciôn de evaluaciôn se representaba mediante una 
red neuronal completamente conectada, con una capa oculta que contenta 40 nodos. Sim- 
plemente mediante la aplicacion repetida de la Ecuaciôn (21.11), TD-Gammon apren- 
diô a jugar considerablemente mejor que Neurogammon, incluso aunque la representacion 
de entrada contenia exactamente la posiciôn del tablero cruda, sin caracteristicas com- 
putadas. Esto supuso alrededor de 200.000 juegos de entrenamiento y dos semanas de 
tiempo de computaciôn. Aunque puede parecerse a muchos juegos, es solo una peque- 
na fraccion despreciable del espacio de estados. Cuando se anadieron caracteristicas pre- 
computadas a la representacion de entrada, una red con 80 unidades ocultas fue capaz, 
después de 300.000 juegos de entrenamiento, de alcanzar un estândar de juego compa¬ 
rable al de los très mejores jugadores del mundo. Kit Woolsey, un gran jugador y ana- 
lista dijo: «No cabe duda en mi mente de que su juicio posicional es mucho mejor que 
el mio.» 


Aplicacion a control de robots 

En la Figura 2 1 .9 se muestra el esquema del famoso problema de equilibrio del carro y 
la pértiga también conocido como el péndulo invertido. El problema consiste en con- 
trolar la posiciôn x del carro, de forma que la pértiga se quede prâcticamente vertical 
(6 ~ 7t/ 2), cuando los limites de la pista en la que esta el carro son los que se muestran. 
En relaciôn con este problema, aparentemente simple, se han publicado mas de 2.000 
articulos en aprendizaje por refuerzo y teoria de control. El problema del carro y la pér¬ 
tiga difiere de los problemas descritos anteriormente en que las variables de estado x, 6, 
x y 9 son continuas. Las acciones normalmente son discretas: tirar a la izquierda o tirar 
a la derecha, el denominado régimen de control bang-bang. 



Figura 21.9 Esquema del problema de equilibrar una larga pértiga que esta encima de un carro 
en movimiento. El carro se puede mover a izquierda y derecha por un controlador que observa x, 
d,x y 0. 
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El primer trabajo de aprendizaje para este problema fue llevado a cabo por Michie 
y Chambers (1968). Su algoritmo Boxes fue capaz de equilibrar la pértiga mas de una 
hora después de solo 30 pruebas. Ademâs, al contrario que muchos sistemas posterio- 
res, Boxes se implementô con un carro y una pértiga reales, no con simulaciôn. El al¬ 
goritmo primero discretiza en cajas (boxes) el espacio de estados de cuatro dimensiones 
(de ahi el nombre). Ejecuta pruebas hasta que la pértiga cae o el carro llega al final de 
la pista. Con la acciôn final en la caja final, se asociaba una recompensa negativa que se 
propagaba hacia atrâs en la secuencia. Se descubriô que la discretizaciôn causaba algu- 
nos problemas cuando el aparato se inicializaba en una posiciôn diferente de las utili- 
zadas en el entrenamiento, lo que sugiere que la generalizacion no era perfecta. Se 
puede obtener una mejora de la generalizacion y un aprendizaje mas râpido utilizando 
un algoritmo que haga particiones adaptadas del espacio de estados de acuerdo con la 
variaciôn observada de la recompensa. Hoy en dia, un ejercicio comün es equilibrar un 
péndulo invertido triple (una proeza que esta lejos de las capacidades de la mayoria de 
los humanos). 


21.5 Busqueda de la politica 


BUSQUEDA DE LA 
POLITICA 


El enfoque final que consideraremos para problemas de aprendizaje por refuerzo se dé¬ 
nomma busqueda de la politica. De alguna forma, la büsqueda de la politica es el mé- 
todo mas sencillo de todos los de este capitulo: la idea es mantener la politica dando 
vueltas tanto tiempo como el rendimiento mejore, y después parar. 

Empecemos con las propias politicas. Recuerde que una politica tt es una funciôn 
que hace corresponder estados a acciones. Estamos interesados principalmente en re- 
presentaciones parametrizadas de tt, que tengan menos paramétras que estados hay en 
el espacio de estados (exactamente como en la secciôn anterior). Por ejemplo, podria- 
mos representar tt mediante una colecciôn de funciones-Q parametrizadas, una para cada 
acciôn, y tomar la acciôn con mayor valor predicho: 


tt(s) — maxQ e (a, s) 


(21.13) 


Cada funciôn-Q podria ser una funciôn lineal de paramétras 8, como en la Ecuaciôn 
(21.9), o podria ser una funciôn no lineal como una red neuronal. Después, la büsque¬ 
da de la politica ajustarâ los paramétras 8 para mejorar la politica. Observe que si la po¬ 
litica se représenta mediante funciones-Q, la büsqueda de la politica es un proceso que 
aprende funciones-Q. ; Este proceso no es el mismo que el aprendizaje-Ql En el apren- 
dizaje-Q con aproximaciôn de funciôn, el algoritmo encuentra un valor de 8 tal que Q g 
es «cercana» a Q*, la funciôn-Q ôptima. Por otro lado, la büsqueda de la politica encuentra 
el valor de 8 que proporciona un mejor rendimiento; los valores encontrados pueden di- 
ferir muy substancialmente 6 . Otro ejemplo claro de la diferencia es el caso en que tt(s) 


6 De forma trivial, la funcion-<2 aproximada, defmida por Q e (a, s) — Q*(a, s)/10 proporciona rendimiento 
ôptirno, incluso aunque no esta del todo cercana a Q*. 
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POLITICA 

ESTOCASTICA 

FUNCION SOFTMAX 


se calcula utilizando büsqueda hacia delante de profundidad 10 con una funciôn de uti- 
lidad aproximada Û e . El valor de 8 que proporciona buen rendimiento es una forma de 
hacer que Û e se parezca a la funciôn de utilidad verdadera. 

Un problema con las representaciones de la polltica como las de la Ecuaciôn (21.13) 
es que la polltica es una funciôn discontinua de los paramétras cuando las acciones son 
discretas 7 . Esto es, habrâ valores de 6 taies que un cambio infinitésimal en 8 cause que 
la polltica cambie de una acciôn a otra. Esto significa que el valor de la polltica tam- 
bién puede cambiar de forma discontinua, lo que hace complicada la büsqueda basada 
en el gradiente. Por esta razôn, los métodos de büsqueda de la polltica normalmente 
utilizan una representaciôn estocâstica de la polltica tt (i (s, a), que especifica la pro- 
babilidad de seleccionar la acciôn a en el estado 5. Una representaciôn popular es la 
funciôn softmax: 

7T e (s, a) = exp (Q g (a, s))/’Zexp(Q e (a', s)) 


VALOR DE LA 
POLITICA 


GRADIENTE DE LA 
POLITICA 


Softmax es prâcticamente determimstica si una acciôn es mucho mejor que las demâs, 
pero siempre proporciona una funciôn de 8 diferenciable; por eso, el valor de la politi- 
ca (que dépende de una forma continua de las probabilidades de selecciôn de acciones) 
es una funciôn de 8 diferenciable. 

Ahora, veamos los métodos para mejorar la polltica. Empezamos con el caso mas 
simple: una polltica determimstica en un entorno deterministico. En este caso, evaluar 
la polltica es trivial: simplemente la ejecutamos, y observamos la recompensa acumu- 
lada; esto nos proporciona el valor de la polltica p (8 ). Mejorar la polltica es un pro¬ 
blema estândar de optimizaciôn, como se describia en el Capitulo 4. Podemos seguir 
el vector gradiente de la polltica V rt p ( 8 ), dado que p ( 8 ) es diferenciable. De forma 
altemativa, podemos seguir el gradiente entpirico mediante escalada, es decir, eva- 
luando el cambio en la polltica para incrementos pequenos de cada valor de paramé¬ 
tra. Con las advertencias usuales, este proceso convergera a un ôptimo local en el 
espacio de politicas. 

Cuando el entorno (o la polltica) es estocâstico, las cosas son mas complicadas. Su- 
ponga que estamos intentando hacer escalada, lo que requiere comparar p (8) y p (8 + 
A 8) para algün A 8 pequeno. El problema es que la recompensa total de cada pmeba pue¬ 
de variar enormemente, por lo que estimar el valor de la polltica a partir de un nüme- 
ro de pruebas pequeno sera muy poco fiable; intentar comparar dos de estas estimaciones 
sera aün menos fiable. Una soluciôn es simplemente ejecutar muchas pmebas, midiendo 
las varianzas de muestra y utilizarlas para determinar si se han ejecutado suficientes pme¬ 
bas para obtener una indicaciôn fiable de la direcciôn de mejora para p (8). Desafortu- 
nadamente, esto es impracticable para muchos problemas reales, donde cada prueba 
puede ser muy cara, consumir mucho tiempo, y quizâs ser peligrosa. 

Para el caso de una polltica estocâstica tt b ( s , a) es posible obtener una estimaciôn 
imparcial del gradiente en 8, V fl p (8), directamente de los resultados de las pruebas eje- 
cutadas en 8. Por simplicidad, obtendremos esta estimaciôn para el caso simple de un 
entorno no secuencial en el que la recompensa se obtiene inmediatamente después de 


7 


Para un espacio de acciones continuo, la polltica puede ser una funciôn plana de los paramétras. 
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actuar en el estado inicial s 0 . En este caso, el valor de la politica es exactamente el va- 
lor esperado de la recompensa, y tenemos 

V fl p(0) = v e a)R(a) = 2(V fl 7 t 6 (s 0 , a))R(a ) 


Ahora, realizamos un simple truco, de forma que este sumatorio pueda ser aproximado 
mediante muestras generadas a partir de la distribuciôn de probabilidad definida por 7 T e 
(s 0 , a). Suponga que tenemos N pruebas y que la accion tomada en la prueba j-ésima es 
a . Entonces 


VgP(0) = 'Z'Tr g (s o , a)- 

a 


a))R(a) 
^6 (* 0 > 


1 v (V^Oo. aj))R(.aj) 

N j =1 Tr g (s 0 ,aj) 


Asi, el verdadero gradiente del valor de la politica se aproxima mediante una suma de 
términos que incluyen el gradiente de la probabilidad de selecciôn de accion en cada prue¬ 
ba. Para el caso secuencial, esto se generaliza a 


V ff p(0) 


1 y a /))^(^) 

N j =1 TT g (s 0 , dj) 


para cada estado s visitado, donde a j se ejecuta en s en la j-ésima pmeba y R (s) es la re¬ 
compensa total recibida del estado s en adelante en la j-ésima prueba. El algoritmo ré¬ 
sultante se denomina Reinforce (Williams, 1992); normalmente es mucho mas efectivo 
que la escalada utilizando muchas pruebas en cada valor de 6. Sin embargo, es todavia 
mas lento de lo necesario. 

Considéré la siguiente tarea: dados dos programas de blackjack 8 , determinar cuâl 
es el mejor. Una forma de hacer esto es que cada uno juegue contra un «croupier» es- 
tândar un numéro determinado de manos, y después mida sus victorias respectivas. El 
problema con esto, como hemos visto, es que las victorias de cada programa fluctüan 
enormemente dependiendo de si recibe cartas buenas o malas. Una solucion obvia es 
generar un determinado nümero de manos por adelantado. De esta forma, eliminamos 
el error que se debe a la diferencia de cartas recibidas. Esta es la idea en la que se basa 
el algoritmo Pegasus (Ng y Jordan 2000). El algoritmo es aplicable a dominios para 
los que esta disponible un simulador y se pueden repetir los resultados «aleatorios» de 
las acciones. El algoritmo funciona generando por adelantado N secuencias de nüme- 
ros aleatorios, cada uno de los cuales se puede utilizar para ejecutar una prueba de cual- 
quier politica. La büsqueda de la politica se lleva a cabo evaluando cada politica 
candidata haciendo uso del mismo conjunto de secuencias aleatorias para determinar 
los resultados de las acciones. Se puede demostrar que el nümero de secuencias alea¬ 
torias que se requieren para asegurar que el valor de cada politica esta bien estimado, 
dépende ünicamente de la complejidad del espacio de politicas, y no de la complejidad 
del dominio subyacente. El algoritmo Pegasus ha sido utilizado para desarrollar poli¬ 
ticas efectivas en varios dominios, incluyendo vuelo autonomo de helicopteros (véase 
Figura 21.10). 


También conocido como ventiuna o ponton. 






890 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 



Figura 21.10 Imageries superpuestas en un perfodo de tiempo de un helicôptero autônomo rea- 
lizando una peligrosa maniobra circular. El helicôptero esta bajo el control de una polftica desa- 
rrollada por el algoritmo de büsqueda de la polftica Pegasus. Se desarrollô un modelo simulador 
observando los efectos de varias manipulaciones de control en helicôpteros reales; el algoritmo fue 
ejecutado en el modelo simulador por la noche. Se desarrollaron una gran variedad de controlado- 
res para diferentes maniobras. En todos los casos, el rendimiento obtenido excediô por mucho el 
de un piloto humano experto utilizando control remoto. (La imagen es cortesfa de Andrew Ng.) 


21.6 Resumen 


Este capftulo ha examinado el problema de aprendizaje por refuerzo: cômo un agente 
puede hacerse experto en un entomo desconocido, ünicamente a partir de sus propias 
percepciones y recompensas ocasionales. El aprendizaje por refuerzo se puede ver como 
un microcosmos para el problema completo de la IA, pero se estudia en esquemas sim- 
plificados para facilitar el progreso. Los puntos mas importantes son: 

• El diseno global del agente dicta el tipo de informacion que debe ser aprendida. 
Los très principales disenos que hemos cubierto son disenos basados en el mode¬ 
lo, utilizando un modelo T y una funcion de utilidad U ; un diseno de modelo li¬ 
bre que utiliza una funcion Q accion-valor; y el diseno reactivo que utiliza una 
polftica 77. 

• Las utilidades se pueden aprender utilizando très enfoques: 

— La estimaciôn directa de la utilidad utiliza la recompensa total observada por 
llegar a un estado dado como evidencia directa para aprender su utilidad. 

— La programaciôn dinâmica adaptativa (ADP) aprende un modelo y una fun¬ 
cion de recompensa a partir de las observaciones y después utiliza un valor o 
pobtica de iteracion para obtener las utilidades o una polftica ôptima. ADP hace 
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un uso optimo de las restricciones sobre utilidades de estados impuestas me- 
diante la estructura de vecindad del entorno. 

— Los métodos de diferencia temporal (TD) actualizan las estimaciones de uti- 
lidad para que correspondan con las de los estados sucesores. Se puede ver 
como aproximaciones simples al enfoque ADP, que no requieren modelo 
para el proceso de aprendizaje. Sin embargo, utilizar un modelo aprendido para 
generar pseudoexperiencias puede dar como resultado un aprendizaje mas râ- 
pido. 

• Las funciones accion-valor, o funciones-Q, se pueden aprender mediante el enfo¬ 
que ADP o mediante un enfoque TD. Con TD, el aprendizaje-Q no requiere mo¬ 
delo ni en la fase de aprendizaje ni en la de selecciôn de acciones. Esto simplifica 
el problema de aprendizaje, pero restringe potencialmente la habilidad de apren¬ 
der en entornos complejos, porque el agente no puede simular los resultados de 
los posibles cursos de acciôn. 

• Cuando el agente de aprendizaje es responsable de seleccionar acciones mientras 
aprende, debe compensar entre el valor estimado de las acciones y el potencial de 
aprender nueva informacion ütil. Una solucion exacta para el problema de explo- 
racion es imposible, pero algunas heuristicas simples realizan un trabajo razonable. 

• En espacios de estados grandes, los algoritmos de aprendizaje por refuerzo deben 
utilizar una representacion funcional aproximada para generalizar sobre los esta¬ 
dos. La senal de diferencia temporal se puede utilizar directamente para actuali- 
zar los parâmetros en representaciones como redes neuronales. 

• Los métodos de busqueda de la politica operan directamente sobre la politica de 
representacion, intentando mejorarla con base enl rendimiento observado. La va- 
rianza del rendimiento en un dominio estocâstico es un problema serio; para do- 
minios simulados se puede superar fijando la aleatoriedad de antemano. 

Por su potencial para eliminar estrategias de control codificadas a mano, el aprendizaje 
por refuerzo continüa siendo una de las areas mas activas de investigacion en aprendi¬ 
zaje automâtico. Las aplicaciones en robôtica prometen ser particularmente valiosas; re- 
querirân métodos para manejar entornos continuos, de muchas dimensiones y 
parcialmente observables en los que los comportamientos con éxito pueden consistir en 
miles o incluso millones de acciones primitivas. 



Notas bibliogrâficas e histôricas 

Turing (1948, 1950) propuso el enfoque del aprendizaje por refuerzo, aunque no esta- 
ba convencido de su efectividad, escribiendo, «el uso de castigos o recompensas puede 
como mucho ser una parte del proceso de ensenanza». El trabajo de Arthur Samuel 
(1959), fue probablemente el primero con éxito en la investigacion sobre aprendizaje au¬ 
tomâtico. Aunque su trabajo fue informai y ténia algunos defectos, contenia la mayoria 
de las ideas modernas del aprendizaje por refuerzo. Hacia la misma época, los investi- 
gadores en teoria de control adaptativa (Widrow y Hoff, 1960), basândose en el trabajo 
de Hebb (1949), entrenaron redes simples con la régla delta. (Esta conexion inicial en- 
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tre las redes neuronales y el aprendizaje por refuerzo ha podido llevar a la persistente 
idea equivocada de que el segundo es un subcampo del primero.) El trabajo en el carro 
y la pértiga de Michie y Chambers (1968) también se puede ver como un método de 
aprendizaje por refuerzo con un aproximador de funcion. La literatura psicolôgica en 
aprendizaje por refuerzo es mucho mas antigua; Hilgard y Bower (1975) proporcionan 
un buen resumen. Las investigaciones sobre el extrano comportamiento de las abejas han 
proporcionado la evidencia directa de la aplicaciôn del aprendizaje por refuerzo en ani¬ 
males; hay una correlaciôn neural clara de la senal de recompensa, en forma de una gran 
correspondencia neural a partir de los sensores de entrada de néctar, directamente con 
la corteza motora (Montague et al., 1995). La investigaciôn utilizando grabaciôn de cel- 
da ünica sugiere que el sistema de dopamina en cerebros de primates implémenta algo 
parecido al aprendizaje de la funcion valor (Schultz et al. 1997). 

La conexiôn entre el aprendizaje por refuerzo y los procesos de decision de Markov 
fue inicialmente realizada por Werbos (1977), pero el desarrollo de aprendizaje por re¬ 
fuerzo en IA es resultado del trabajo en la Universidad de Massachusetts a comienzos 
de los anos 80 (Barto et al., 1981). El artfculo de Sutton (1988) proporciona un buen re¬ 
sumen histôrico. La Ecuaciôn (21.3) de este capftulo es un caso especial para À = 0 del 
algoritmo general TD(À) de Sutton. TD(À) actualiza los valores de todos los estados en 
una secuencia, llevando a cada transiciôn mediante una cantidad que disminuye como 
À* para estados de t pasos anteriores. TD(1) es idéntico a la régla de Widrow-Hoff o ré¬ 
gla delta. Boyan (2002), basândose en el trabajo de Bradtke y Barto (1996) argumenta 
que TD(À) y los algoritmos relacionados hacen un uso ineficiente de las experiencias; 
esencialmente, son algoritmos de regresiôn en llnea que convergen mucho mas lenta- 
mente que la regresiôn/wera de llnea. Su algoritmo en llnea LSTD(À) proporciona los 
mismos resultados que la regresiôn fuera de llnea. 

La combinaciôn del aprendizaje de diferencia temporal con la generaciôn basada en 
modelos de experiencias simuladas fue propuesta en la arquitectura DYNA de Sutton (Sut¬ 
ton, 1990). La idea de barrido con prioridades fue introducida independientemente por 
Moore y Atkeson (1993) y Peng y Williams (1993). El aprendizaje-g fue desarrollado 
en la tesis doctoral de Watkin (1989). 

Los problemas del bandido, que modelizan el problema de exploraciôn de decisio- 
nes no secuenciales, fueron analizados en profundidad por Berry y Lristedt (1985). Las 
estrategias ôptimas de exploraciôn para algunos esquemas se pueden obtener utilizan¬ 
do la técnica denominada indices Gittins (Gittins, 1989). Barto et al. (1995) discute una 
variedad de métodos de exploraciôn para problemas de decisiones secuenciales. Kearns 
y Singh (1998) y Brafman y Tennenholtz (2000) describen algoritmos que exploran en- 
tomos desconocidos para los que esta garantizada la convergencia a politicas cercanas 
a la ôptima en un tiempo exponencial. 

La aproximaciôn de funciones en aprendizaje por refuerzo viene del trabajo de Sa¬ 
muel, que utilizô funciones de evaluaciôn lineales y no lineales, y métodos de selecciôn 
de caracteristicas para reducir el espacio de las mismas. Los métodos posteriores inclu- 
cmac yen el CMAC ( Cerebellar Model Articulation Controller ) (Albus, 1975), que esencial¬ 

mente es una suma de funciones nücleo local que se superponen, y las redes neuronales 
asociativas de Barto et al. (1983). Actualmente, las redes neuronales son la forma mas 
popular de aproximaciôn de funciones. La aplicaciôn que se conoce mejor es TD-Gam- 
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mon (Tesauro, 1992, 1995), que se ha discutido en este capitulo. Un problema signifi- 
catico que présenta el aprendizaje TD con redes neuronales es que tiende a olvidar las 
experiencias que han ocurrido hace tiempo, especialmente aquellas en partes del espa- 
cio de estados que se evitaron una vez que se ha conseguido competencia. Esto puede 
dar lugar a fallos catastrôficos si reaparecen estas circunstancias. La aproximacion de 
funciones basada en aprendizaje basado en instancias puede evitar este problema 
(Ormoneit y Sen, 2002; Forbes, 2002). 

La convergencia de los algoritmos de aprendizaje por refuerzo que utilizan aproxi¬ 
macion de funciones es una cuestiôn extremadamente técnica. Los resultados para apren¬ 
dizaje TD han sido reforzados progresivamente para el caso de aproximadores lineales 
de funciones (Sutton, 1988; Dayan, 1992; Tsitsiklis y Van Roy, 1997), pero se han pre- 
sentado algunos ejemplos de divergencia para funciones no lineales (veâse Tsitsiklis y 
Van Roy, 1997, para una discusiôn). Papavassiliou y Russell (1999) describen un nue- 
vo tipo de aprendizaje por refuerzo que converge con cualquier forma de aproximador 
de funcion, dado que se puede encontrar una aproximacion de mejor ajuste para los da¬ 
tas observados. 

Los métodos de büsqueda de pobtica fueron llevados a la fama por parte de Williams 
(1992), que desarrollô la familia de algoritmos Reinforce. Los trabajos posteriores de 
Marbach y Tsitsiklis (1998), Sutton et al. (2000) y Baxter y Bartlett (2000) reforzaron 
y generalizaron los resultados de convergencia para la büsqueda de la pobtica. El algo- 
ritmo PEGASUS se debe a Ng y Jordan (2000), aunque en la tesis doctoral de Van Roy 
(1998) aparecen técnicas similares. Como hemos mencionado en este capitulo, el ren- 
dimiento de una pobtica estocâstica es una funcion continua de sus parâmetros, que se 
mejora con métodos de büsqueda basados en el gradiente. Este no es el ünico beneficio: 
Jaakkola et al. (1995) argumentan que realmente, las polfticas estocâsticas funcionan me¬ 
jor que las pollticas determimsticas en entornos parcialmente observables, si ambas se 
limitan a actuar con base en la percepciôn actual. (Una razôn es que es menos probable 
que la pobtica estocâstica se atasque debido a algunos obstâculos que no se han visto.) 
En el Capitulo 17 apuntamos que las pollticas ôptimas en MDPs parcialmente observa¬ 
bles son funciones determimsticas del espacio de creencias en vez de funciones de la 
percepciôn actual, por lo que aün esperariamos mejores resultados manteniendo el es¬ 
pacio de creencias haciendo uso de los métodos de fïltrado del Capitulo 15. Desafortu- 
nadamente, el espacio de estados de creencia es de dimensiones altas y continuo, y todavia 
no se han desarrollado algoritmos efectivos para aprendizaje con refuerzo con estados 
de creencia. 

Los entornos del mundo real presentan una enorme complejidad, en términos del nü- 
mero de acciones primitivas que se requieren para conseguir una recompensa significa- 
tiva. Por ejemplo, un robot puede realizar cientos de miles de movimientos de piernas 
antes de meter un gol. La determinaciôn de la recompensa es un método comün, que 
se utilizaba originalmente en entrenamiento de animales. Supone proporcionar al agen¬ 
te recompensas adicionales para «hacer progresos». Para el fütbol, éstas se pueden dar 
por hacer contacto con el balôn o por lanzarlo hacia la porteria. Estas recompensas pue¬ 
den acelerar enormemente el aprendizaje, y se pueden incluir fâcilmente, pero existe el 
riesgo de que el agente aprenda a maximizar las pseudo-recompensas en vez de las re¬ 
compensas reales; por ejemplo, estar cerca del balôn y «vibrar» causa muchos contac- 
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tos con el mismo. Ng et al. (1999) muestran que el agente seguirâ aprendiendo la poli- 
tica ôptima dado que la pseuso-recompensa F(s, a, s') satisface Fis, a, s') = ydX.v') = $( 5 ), 
donde es una funciôn arbitraria del estado. Se puede construir de forma que refie - 
je cualquier aspecto deseable del estado, tal como la consecuciôn de submetas o la dis¬ 
tancia a un estado meta. 

Los métodos jerârquicos de aprendizaje por refuerzo, que intentan resolver pro- 
blemas en mültiples niveles de abstracciôn (muy parecidos a los métodos de planifi- 
caciôn HTN del Capltulo 12), también pueden facilitar la generaciôn de comportamientos 
complejos. Por ejemplo, «meter un gol» se puede descomponer en «obtener la posesiôn», 
«regatear hacia la porteria» y «disparar»; y cada una de éstas se puede descomponer en 
mas comportamientos motores de bajo nivel. Los resultados fundamentales en este area 
se deben a Forestier y Varaiya (1978), que demostraron que los comportamientos de bajo 
nivel de complejidad arbitraria se pueden tratar como acciones primitivas (aun aquellos 
que pueden variar en el tiempo) desde el punto de vista de los comportamientos de alto 
nivel que los invocan. Los enfoques actuales, Parr y Russell (1998), Dietterich (2000), 
Sutton et al. (2000), André y Russell (2002), se basan en este resultado para desarrollar 
métodos que provean a un agente con un programa parcial que restringe el comporta- 
miento del agente de forma que tenga una estructura jerâquica. Después, se aplica apren¬ 
dizaje por refuerzo para aprender el mejor comportamiento consistente con el programa 
parcial. La combinaciôn de aproximaciôn de funciones, la détermination de la recom¬ 
pensa y el aprendizaje por refuerzo jerârquico permite enfrentarse a problemas de gran 
escala de forma satisfactoria. 

El resumen de Kaelbling et al. (1996) es un buen punto de entrada a la literatura. El 
texto de Sutton y Barto (1998), dos de los pioneros del campo, se centra en las arqui- 
tecturas y algoritmos, mostrando como el aprendizaje por refuerzo entrelaza las ideas 
de aprendizaje, planification y actuation. El trabajo algo mas técnico de Bertsekas y Tsit- 
siklis (1996) proporciona de forma rigurosa los conocimientos bâsicos en la teoria de 
programaciôn dinâmica y convergencia estocâstica. Los artlculos de aprendizaje por re¬ 
fuerzo se publican frecuentemente en Machine Learning, Journal of Machine Learning 
Research y en las Conferencias Internacionales de Machine Learning y Neural Infor¬ 
mation Processing Systems. 


EJERCICIOS 

21.1 Implemente un agente de aprendizaje pasivo en un entorno simple como el mun- 
do 4 X 3. Para el caso de un modelo del entorno inicialmente desconocido, compare el 
rendimiento del aprendizaje de los algoritmos de estimation directa de la utilidad, TD 
y ADP. Realice la comparaciôn para la polltica ôptima y para varias politicas aleatorias. 
/ ; Para cuâl converge mas râpidamente la estimacion de la utilidad? / ; Qué pasa cuando se 
aumenta el tamano del entorno? (Intente entornos con y sin obstâculos). 

21.2 El Capitulo 17 definia una polltica adecuada para un MDP, como aquella para 
la que esta garantizado alcanzar un estado terminal. Muestre que para un agente ADP 
pasivo es posible aprender un modelo de transiciôn para el que su polltica tt es inade- 
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cuada (incluso si tt es adecuada para el MDP verdadero; con estos modelos, el paso de de- 
terminaciôn de valores puede fallar si y = 1). Muestre que este problema no puede surgir 
si la determinacion de valores se aplica al modelo aprendido solo al final de una prueba. 

21.3 Modifique el agente ADP pasivo para que utilice un algoritmo ADP aproxima- 
do como el discutido en el texto. Haga esto en dos pasos: 

a) Implemente una cola de prioridades para ajustes de la estimaciôn de la utilidad. 
Siempre que se ajusta un estado, todos sus predecesores también se convierten 
en candidatos para ajuste y deben ser anadidos a la cola. La cola se inicializa 
con el estado para el que ha tenido lugar la transiciôn mas reciente. Permita solo 
un numéro fijo de ajustes. 

b) Expérimente con varias heurfsticas para ordenar la cola de prioridades, exami- 
nando su efecto en las tasas de aprendizaje y el tiempo de computaciôn. 

21.4 El método de estimaciôn directa de la utilidad del Apartado 21.1 utiliza estados 
terminales distintos para indicar el final de una prueba. /Como se podria modificar para 
entornos con descuento de recompensas y sin estados terminales? 

21.5 / ; Cômo se puede utilizar el algoritmo de determinacion de valores para calcular 
la pérdida esperada experimentada por un agente que utiliza un conjunto dado de esti- 
maciones de utilidad U y un modelo estimado M, comparado con un agente que usa los 
valores correctos? 

21.6 Adapte el mundo de la aspiradora (Capitulo 2) para aprendizaje por refuerzo in- 
cluyendo recompensas por recoger cada porciôn de suciedad, por guardarse y por apa- 
garse. Haga el mundo accesible proporcionando las percepciones adecuadas. Ahora 
expérimente con distintos agentes de aprendizaje por refuerzo. /Es la aproximaciôn de 
funciones necesaria para el éxito? /Que tipo de aproximador funciona para esta aplica- 
ciôn? 

21.7 Implemente un agente de exploraciôn de aprendizaje por refuerzo que utilice la 
estimaciôn directa de la utilidad. Construya dos versiones: una con una representaciôn 
tabular y otra que utilice el aproximador de funciôn de la Ecuaciôn (21.9). Compare su 
rendimiento en très entornos. 

a) El mundo 4X3 descrito en este capitulo. 

b ) El mundo 10 X 10 sin obstâculos y con una recompensa de +1 en (10, 10). 

c ) El mundo 10 X 10 sin obstâculos y con una recompensa de +1 en (5, 5). 

21.8 Escriba la actualizaciôn de parâmetros para el aprendizaje TD con 

Û (x, y) = 6 0 + 6 x x + 0 2 y + 0 3 ^(x - x g ) 2 + (y - y g ) 2 

21.9 Invente caracteristicas adecuadas para un mundo de cuadrfcula estocâstica (ge- 
neralizaciôn del mundo 4X3) que contenga mültiples obstâculos y estados terminales 
multiples con recompensas de +1 o — 1. 

21.10 Calcule la funciôn de utilidad verdadera y la mejor aproximaciôn lineal en x e 
y (como en la Ecuaciôn (21.9)) para los siguientes entornos: 
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à) Un mundo 10 X 10 con un ünico estado terminal +1 en (10, 10). 

b) Como (a), pero anadiendo un estado terminal —1 en (10, 1). 

c) Como (b), pero anadiendo obstâculos en 10 cuadrados seleccionados aleatoria- 
mente. 

d) Como (b), pero situando una pared en el tramo que va desde (5, 2) a (5, 9). 

e ) Como (a), pero con el estado terminal en (5, 5). 

Las acciones son movimientos deterministicos en las cuatro direcciones. En cada caso, 
compare los resultados utilizando grâficos tridimensionales. Para cada entomo, proponga 
caracteristicas adicionales (ademâs de x e y) que mejorarfan la aproximaciôn y muestre 
los resultados. 



21.11 Extienda el entorno estândar de juegos (Capitulo 6) para que incorpore una se¬ 
rial de recompensa. Sitüe dos agentes de aprendizaje por refuerzo en el entomo (por su- 
puesto, pueden compartir el programa de agente) y deje que jueguen uno contra el otro. 
Aplique la régla de actualizaciôn TD generalizada (Ecuacion (21.11)) para actualizar la 
funcion de evaluacion. Podria empezar con una simple funcion de evaluacion lineal pon- 
derada y un juego sencillo como el tic-tac-toe. 

21.12 Implemente los algoritmos Reinforce y Pegasus y apliquelos al mundo 4X3, 
utilizando una familia de pollticas de su propia elecciôn. Comente los resultados. 

21.13 Investigue la aplicacion de las ideas de aprendizaje por refuerzo para modelizar 
el comportamiento humano y animal. 

21.14 / ; Es el aprendizaje por refuerzo un modelo abstracto apropiado para la evolu- 
cion?^Qué conexion existe, si existe alguna, entre senales de recompensa cableadas y 
la capacidad evolutiva? 














22 La 


c omunic aciôn 


En este capîtulo veremos por qué los agentes pueden querer intercambiar mensajes 
que lleven information y cômo lo pueden hacer. 


Anochece en los bosques de la sabana del Parque Nacional de Amboseli a los pies del 
Kilimanjaro. Un grupo de monos vervet («vervet monkeys») esta buscando comida 
cuando uno de ellos emite un ruidoso aullido. Los otros individuos del grupo lo reco- 
nocen como el aviso de la presencia de un leopardo (distinto del corto carraspeo usado 
para prévenir de las âguilas o del chasquido para las serpientes) y trépan por los ârbo- 
les. El vervet se ha comunicado satisfactoriamente con el grupo. 

La comunicaciôn es el intercambio intencional de informaciôn efectuado median- 
te la producciôn y percepciôn de signos pertenecientes a un sistema compartido de sig- 
nos convencionales. La mayoria de los animales usan signos para representar mensajes 
importantes: comida aqui, depredador cercano, acercamiento, retirada, companero. En 
un mundo observable parcialmente la comunicaciôn puede ayudar a los agentes a pros¬ 
pérer ya que pueden adquirir informaciôn que es observada o inferida por los demâs. 
Lo que hace diferente a los humanos de los otros animales es el complejo sistema 
lenguaje de mensajes estructurados, que conocemos como lenguaje, y que nos permite comuni- 

car la mayor parte de las cosas que sabemos acerca del mundo. Aunque los chimpan- 
cés, los delfines y otros manhferos han dado muestra de manejar vocabularios de cien- 
tos de signos y cierta aptitud para encadenarlos, ünicamente los humanos pueden 
comunicar fiablemente un numéro ilimitado de mensajes cualitativamente diferentes. 

Desde luego, hay otros atributos que son exclusivamente humanos: ninguna otra es- 
pecie viste ropas, créa arte figurativo o ve très horas diarias la télévision. Pero cuando 
Turing propuso su prueba ( véase Apartado 1.1) la baso en el lenguaje, ya que el lenguaje 
esta mtimamente vinculado con el pensamiento. En este capîtulo explicaremos cômo tra- 
baja y describe un fragmento de castellano un agente comunicativo. 


COMUNICACION 

SIGNOS 
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22.1 


ACTO DE HABLA 

HABLANTE 

OYENTE 

DECLARACIÔN 

PALABRA 


ACTO DE HABLA 
INDIRECTO 


DECLARACIONES 


La comunicacion como accion 


Una de las acciones que puede realizar un agente es la de producir lenguaje. Esta accion 
es llamada un acto de habla. «Habla» es usado en el mismo sentido que «libertad de 
palabra», no estrictamente hablado de forma que, el correo electrônico, las seriales de 
humo y el uso del lenguaje de signos son considerados todos ellos como actos de habla. 
En el idioma inglés no existe una palabra especifica para designar a un agente que pro¬ 
duce lenguaje sea cual sea el medio, por ello usaremos hablante, oyente y declaraciôn 
como términos genéricos para referimos a cualquier modo de comunicacion. También 
emplearemos el término palabra para referirnos a cualquier clase de signo comunica- 
tivo convencional. 

/ ; Por qué querrâ un agente molestarse en realizar un acto de habla cuando puede ha- 
cer una accion «normal»? Hemos visto en el Capitulo 12 que los agentes en un entorno 
multiagente pueden servirse de la comunicacion para lograr planes comunes. Por ejem- 
plo, un grupo de agentes que esta explorando simultâneamente el mundo de wumpus 1 
obtiene mas ventajas (colectiva e individualmente) si es capaz de: 

• Preguntar a otros agentes acerca de aspectos particulares del mundo. Esto se sue- 
la hacer con cuestiones como: £H as olfateado al wumpus en alguna parte? 

• Informarse entre si acerca del mundo. Esto se hace con declaraciones represen- 
tativas: Hay una brisa a qui, en 3 4. La respuesta a una pregunta es otra clase de 
accion informativa. 

• Solicitar a otros agentes la realizaciôn de acciones: Porfavor, ayûdame a llevar el 
oro. Algunas veces se considéra mas correcto usar un acto de habla indirecto (una 
solicitud en forma de declaraciôn o pregunta): Podrîa utilizar alguna ayuda para 
cargar esto. Un agente con autoridad puede dar ôrdenes ( Alpha ve a la derecha; 
Bravo y Charlie id a la izquierda) y un agente con poder puede amenazar ( Dame 
el oro, pues si no.. .). A esta clase de actos de habla se les llama directivas. 

• Aceptaciôn de peticiones: De acuerdo. 

• Prometer o comprometerse a un plan: Yo dispararé al wumpus; mientras tû coge 
el oro. 

Todos los actos de habla afectan al mundo al hacer vibrar las moléculas del aire (o el efec- 
to équivalente en cualquier otro medio) y cambiando el estado mental y fmalmente las ac¬ 
ciones futuras de otros agentes. Algunos tipos de actos de habla transfieren informaciôn 
al oyente, asumiendo que la toma de decisiones del oyente se verâ afectada por dicha in¬ 
formaciôn. Otros tienen la intenciôn directa de hacer que el oyente haga alguna accion. Otra 
clase de actos de habla, las declaraciones, surgen para tener un efecto mas directo sobre 
el mundo, como en Os declaro marido y mujer o très, estâs fuera. Desde luego, el efecto 
es conseguido creando o confirmando una compleja red de estados mentales entre los agen¬ 
tes involucrados: estar casado o estar fuera del juego son estados caracterizados princi- 
palmente por convenciones mas que por propiedades «fisicas» del mundo. 


1 Nota del traductor: Wumpus es el monstruo central de una familia de videojuegos de los anos 70 llamado 
«Hunt The Wumpus». 
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La tarea de los agentes que se comunican es decidir cuândo se le solicita un acto 
de habla de alguna clase y qué acto de habla, de entre todas las posibilidades, es el co- 
rrecto. El problema de entender los actos de habla es similar a otros problemas de com- 
prensiôn, taies como interpretar imâgenes o diagnosticar enfermedades. Se nos da un 
conjunto de entradas ambiguas y a partir de ellas debemos retroceder para decidir qué 
estado del mundo pudo haber creado esas entradas. S in embargo, debido a que el ha¬ 
bla es una acciôn planificada, su comprensiôn también implica el reconocimiento de 
planes. 

Fundamentos del lenguaje 

Un lenguaje formai se define como un (posiblemente infinito) conjunto de cadenas. 
Cada cadena es a su vez una concatenacion de simbolos terminales, algunas veces 11a- 
mados palabras. Por ejemplo, en el lenguaje de la logica de primer orden, a y P son sfm- 
bolos terminales y «P a Q» es una cadena tfpica. La cadena «P Q a» no pertenece al 
lenguaje. Los lenguajes formales, taies como la logica de primer orden o Java, tienen 
definiciones matemâticas estrictas. Esto contrasta con los lenguajes naturales, taies como 
chino, danés, inglés y castellano, que no tienen definiciones estrictas y son usados por 
una comunidad de hablantes. En este capitulo intentaremos tratar los lenguajes natura¬ 
les como si ellos fueran lenguajes formales, aunque reconocemos que el empareja- 
miento no sera perfecto. 

Una gramâtica es un conjunto finito de réglas que especifican un lenguaje. Los len¬ 
guajes formales siempre tienen una gramâtica oficial, especificada en manuales o libres. 
Los lenguajes naturales tienen gramâticas no oficiales, pero los lingüistas se afanan en 
descubrir propiedades del lenguaje por medio de un proceso de investigaciôn cientlfica 
y entonces codificar sus descubrimientos en una gramâtica. Hasta la fecha, ningün lin- 
güista lo ha conseguido completamente. Obsérvese que los lingüistas son cientfficos, que 
intentan définir como es un lenguaje. Hay también gramâticos prescriptivos, los cuales 
intentan dictar como debe ser un lenguaje. Ellos crean réglas taies como «No dividir in- 
finitivos» que son algunas veces escritas en gufas de estilo, pero que tienen poca rele- 
vancia en el uso actual del lenguaje. 

Tanto los lenguajes formales como los naturales asocian un significado o semânti- 
ca a cada cadena vâlida. Por ejemplo, en el lenguaje de la aritmética podemos tener una 
régla que diga que si «X» e «Y» son expresiones, entonces «X + Y» es también una ex- 
presion y su semântica es la suma de X e Y. En los lenguajes naturales es ademâs im¬ 
portante entender la pragmâtica de una cadena: el significado real de la cadena cuan- 
do es dicha en una situacion determinada. El significado no estâ solamente en las 
palabras en si mismas, sino en la interpretaciôn de las palabras in situ. 

La mayoria de los formalismos para réglas gramaticales estân basados en la idea de 
estructura de la frase (que las cadenas estân compuestas de subcadenas llamadas fra¬ 
ses, las cuales pueden pertenecer a distintas categorfas). Por ejemplo, las frases «el 
wumpus», «el rey» y «el agente de la esquina» son todas ellas ejemplos de la categoria 
frase nominal o FN. Hay dos razones para identificar a las frases de esta manera. Pri¬ 
mera, las frases normalmente corresponden a elementos semânticos naturales a partir de 
los cuales puede ser interpretado el significado de una declaracion; por ejemplo, las fia- 
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FRASE VERBAL 

ses nominales hacen referencia a objetos del mundo. Segundo, el categorizar las frases 
nos ayuda a describir las cadenas permitidas del lenguaje. Podemos decir que cualquier 
frase nominal puede combinarse con una frase verbal (o FV), tal como «esta muerto», 

SENTENCIA 

para formar una frase de la categoria sentencia (o S). Sin las nociones intermedias de 
frase nominal y frase verbal séria dificil explicar por qué «el wumpus esta muerto» es 
una sentencia mientras que «wumpus el muerto es» no lo es. 

SIMB0L0S NO 
TERMINALES 

A los nombres de las categorias, taies como FN, FV y S, les llamamos simbolos no 
terminales. Las gramâticas definen los no terminales por medio de réglas de reescritu- 

REGLAS DE 
REESCRITURA 

ra. Adoptaremos la notacion de la forma Backus-Naur (BNF) para las réglas de reescri- 

tura, tal como se describe en el Apéndice B en la pagina 1.117. En esta notacion, el sig- 

nificado de una régla como „ _ 17 , 

S —* FN FV 

es que una sentencia puede consistir en una FN seguida por cualquier FV. 

INTENCIÔN 

Etapas de la comunicaciôn 

Un episodio tfpico de comunicaciôn, en el cual un hablante H quiere informar a un oyen- 
te 0 acerca de una sentencia S utilizando palabras P, esta compuesto de siete procesos: 

Intenciôn. Por alguna razôn, un hablante H décidé que hay una sentencia S que me- 
rece ser dicha al oyente 0. En nuestro ejemplo, el hablante tiene la intenciôn de hacer 
saber al oyente que el wumpus no vivirâ mas. 

GENERACIÔN 

Generaciôn. El hablante planifica como convertir la sentencia S en una declaraciôn 
que probablemente harâ que el oyente, al percibir la declaraciôn en la situaciôn actual, 
pueda inferir el significado S (o algo parecido). Se asume que el hablante es capaz de 
proponer las palabras «El wumpus esta muerto» y decirlas. 

SINTESIS 

Sîntesis. El hablante produce la realizaciôn fisica P' de las palabras P. Esto puede 
ser via tinta sobre papel, vibraciones en el aire o cualquier otro medio. En la Figura 22.1, 
mostramos un agente que sintetiza una cadena de sonidos P' escritos en el alfabeto fo- 
nético definido en el Apartado 15.6: «[elwumpusestamuerto]». Las palabras estân jun- 
tas; esto es tipico del habla râpida. 

PERCEPCIÔN 

Percepciôn. 0 percibe la realizaciôn fisica P' como P\ y la decodifica como las pa¬ 
labras P 2 . Cuando el medio es hablado, el paso de percepciôn se llama reconocimiento 
del habla; cuando es impreso, se llama reconocimiento ôptico de caractères. Ambos 
pasaron en los anos 1990 de ser esotéricos a ser temas comunes, debido en gran parte a 
la creciente potencia de câlculo de los computadores. 

ANÂLISIS 

Anâlisis. 0 infiere que P 2 tiene posibles significados Sj, ..., S n . Dividimos el anâli- 
sis en très partes principales: interpretaciôn sintâctica (o anâlisis sintâctico), interpreta- 

ANÂLISIS SINTÂCTICO 

ciôn semântica e interpretaciôn pragmâtica. El anâlisis sintâctico es el proceso de cons- 

ÂRBOL SINTÂCTICO 

truir el ârbol sintâctico para una cadena de entrada, como se muestra en la Figura 22.1. 
Los nodos interiores del ârbol sintâctico representan frases y los nodos hoja representan 

INTERPRETACIÔN 

SEMÂNTICA 

palabras. La interpretaciôn semântica es el proceso de extracciôn del significado de una 
declaraciôn como una expresiôn en algün lenguaje de representaciôn. La Figura 22. 1 mues¬ 
tra dos posibles interpretaciones semânticas: que el wumpus no estâ vivo y que el wum¬ 

INTERPRETACIÔN 

PRAGMÂTICA 

pus estâ agotado (un significado coloquial de muerto). Se dice que las declaraciones con 
varias interpretaciones posibles son ambiguas. La interpretaciôn pragmâtica tiene en 
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Capacidad generativa 

Los formalismos gramaticales pueden ser clasificados por su capacidad generativa: el conjunto de 
lenguajes que pueden representar. Chomsky (1957) describe cuatro clases de formalismos gramatica¬ 
les que difieren ünicamente en la forma de las réglas de reescritura. Las clases pueden ser organizadas 
jerârquicamente, donde cada clase puede ser usada para describir todos los lenguajes que pueden ser 
descritos por una clase menos potente, asi como algunos lenguajes adicionales. Vamos a listar la je- 
rarquia; aparece primero la clase mas potente: 

Las gramâticas recursivamente enumerables usan réglas que no tienen restricciones: ambos la- 
dos de las réglas de reescritura pueden tener cualquier nümero de simbolos terminales y no termina¬ 
les, como en la régla A B —» C. Estas gramâticas son équivalentes a las mâquinas de Turing en cuanto 
a su potencia expresiva. 

Las gramâticas dependientes del contexto estân restringidas ünicamente a que la parte derecha 
debe contener al menos tantos simbolos como la parte izquierda. El nombre «dependiente del contex¬ 
to» procédé del hecho de que una régla tal como AS B —*AXB dice que un S puede ser reescrito como 
un X en el contexto de un A precediéndole y un B siguiéndole. Las gramâticas dependientes del con¬ 
texto pueden representar lenguajes taies como a" b" c" (una secuencia de n copias de a seguida por el 
mismo nümero de b y de c). 

En las gramâticas independientes del contexto (o GIC), el lado izquierdo consta de un ünico sim- 
bolo no terminal. Asi, cada régla permite rescribir el no terminal como el lado derecho en cualquier 
contexto. Las GIC son muy utilizadas como gramâticas de lenguajes de programacion y lenguajes na- 
turales, aunque ahora estâ ampliamente aceptado que al menos algunos lenguajes naturales tienen cons- 
trucciones que no son independientes del contexto (Pullum, 1991). Las gramâticas independientes del 
contexto pueden representar a n b", pero no a" b" c n . 

Las gramâticas regulares son la clase mâs restringida. Cada régla tiene un ünico no terminal en el 
lado izquierdo y un simbolo terminal opcionalmente seguido por un no terminal en el lado derecho. Las 
gramâticas regulares son équivalentes en potencia a las mâquinas de estados finitos. Se ajustan mal a los 
lenguajes de programacion, debido a que no pueden representar construcciones taies como aperturas y 
cierres balanceados de paréntesis (una variaciôn del lenguaje a' 1 b"). Lo mâs cercano que pueden llegar 
es representando a * b*, una secuencia de cualquier nümero de a seguido de cualquier nümero de h. 

Las gramâticas mâs altas en la jerarquia tienen mâs poder expresivo, pero los algoritmos para tra- 
tar con ellas son menos eficientes. Hasta mitad de los 80, los lingüistas se concentraron en los lenguajes 
independientes del contexto y dependientes del contexto. Desde entonces, ha crecido la importancia 
de las gramâticas regulares, ocasionado por la necesidad de procesar muy râpidamente megabytes y 
gigabytes de texto en lînea, incluso a costa de un menor anâlisis completo. Como Fernando Pereira 
expresô, «Cuanto mâs viejo me vuelvo, mâs abajo voy en la jerarquia de Chomsky». Para ver lo que 
él quiere decir, compare Pereira y Warren (1980) con Mohri, Pereira y Riley (2002). 


cuenta el hecho de que las mismas palabras pueden tener diferentes significados en dife- 
rentes situaciones. Mientras la interpretacion sintâctica es una funciôn de un argumen¬ 
ta, la cadena, la interpretacion pragmâtica es funciôn de la declaraciôn y del contexto o 
situaciôn en la cual es enunciada. En el ejemplo, la pragmâtica hace dos cosas: reem- 
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DESAMBIGUACIÔN 


INC0RP0RACIÔN 



1 

1 

1 


1 

1 

1 

HABLANTE 

Intenciôn: 

1 

1 

1 

Generaciôn: 

1 

1 

1 

Smtesis: 

Sabe{ 0 ,—i VivoCWumpus,Sp) 

1 

1 

1 

El wumpus estâ muerto 

1 

1 

1 

[elwumpusestamuerto] 


Percepciôn: 

El wumpus esta muerto 


Anâlisis: 

(sintâctico) 



El 

(Interpretaciôn 

semântica): 

(Interpretaciôn 

pragmâtica): 


Artfculo Nombre Verbo Adjetivo 

I III 

wumpus esta muerto 


n VivofWumpusAbord) 
Agotado(Wumpus Ahord) 

^ Vivo(Wumpusi,S 3) 
Agotado(Wumpus\,S 3) 


OYENTE 


Desambiguaciôn: 

—1 Vivo(Wumpus\,S 3) 


Incorporaciôn: 

DECIRiBC, 

—1 Vivo{Wumpus\,S 3)) 


Figura 22.1 Los siete procesos implicados en la comunicacion, usando la sentencia ejemplo «El 
wumpus esta muerto» 


plaza la constante Ahora por la constante S y que représenta la situacion actual, y reem- 
plaza Wumpus por Wumpus,, que représenta al ünico wumpus que sabemos que esta en 
la cueva. En general, la pragmâtica puede contribuir mucho mas a la interpretaciôn fi¬ 
nal de la declaraciôn; consideremos «Estoy mirando el diamante» cuando es dicho por 
un joyero o por un jugador de béisbol. En el Apartado 22.7 veremos que la pragmâtica 
nos permite interpretar «Estâ muerto» como que el wumpus estâ muerto si nosotros es- 
tamos en una situacion donde el wumpus estâ saliente. 

Desambiguaciôn. O infiere que H intenta expresar S, (donde idealmente S, = S). La 
mayorfa de los hablantes no son intencionalmente ambiguos, pero muchas declaracio- 
nes tienen varias interpretaciones factibles. La comunicacion funciona porque el oyen- 
te hace la labor de imaginarse qué interpretaciôn es la que probablemente pretende ex¬ 
presar el hablante. Conviene destacar que esta es la primera vez que hemos usado la 
palabra probablemente, y que la desambiguaciôn es el primer proceso que dépende 
fuertemente del razonamiento incierto. El anâlisis généra interpretaciones posibles; si 
se encuentra mâs de una interpretaciôn, entonces la desambiguaciôn elige aquella que 
considéra la mejor. 

Incorporaciôn. O décidé creer S, (o no). Un agente totalmente ingenuo deberâ creer 
todas las cosas que oiga, pero un agente sofisticado considerarâ el acto de habla como 
evidencia para S,, no como confirmaciôn de ello. 

Al ponerlo todo junto, obtenemos el programa agente mostrado en la Figura 22.2. 
Aqui el agente actüa como un robot esclavo que puede ser controlado por un amo. En 
cada turno, el esclavo responderâ una pregunta o cumplirâ una orden que le haya dado 
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finition Agente-Comunicativo-Ingenuo (perception) devuelve action 
estâtico: BD, base de datos 

estado, el estado actual del retorno 

action, la action mâs reciente, inicialmente ninguna 

estado <— AcTUALiZAR-EsTADoleitoclo, action, perception) 
palabras <— PARTE-HABLADAlpercepc/dn) 

semântica <— Desambiguaciôn(Pragmâtica(Semântica(Analizador(/?<2/<2/:wyk)))) 
si palabras = Ninguna y no se dice action enfonces /* Describe el estado */ 
devuelve DECiRlGENERAR-DESCRiPCiÔNiestarfo)) 
sino si T\ŸO[semântica] = Orden enfonces /* Obedece la orden */ 
devuelve Contenidos [semântica] 

sino si Tipo [semântica] = Pregunta enfonces /* Contesta la pregunta */ 
respuesta <— PreguntarCBD, semântica) 
devuelve Decir(GENERAR-DESCR iPCiÔN(rasp;<e.sta)) 
sino si Tipo[ semântica] = Sentencia enfonces /* Créé la sentencia */ 

NotarIÆZ), CoNTENiDOS[semd«hca]) 

/* Si se fracasa aqui, hacer una action «regular» */ 
devuelve Primero(Planificador(£D, estado)) 


Figura 22.2 Un agente comunicativo que acepta ordenes, preguntas y sentencias. El agente pue- 
de también describir el estado actual o realizar una action que no sea un acto de habla «regular» 
cuando no tiene nada que decir. 


el amo y créera cualquier afirmacion hecha por el amo. También comentarâ la situacion 
actual si no tiene nada mâs urgente que hacer y planificarâ su propia acciôn si se queda 
solo. Aqui tenemos un diâlogo tipico: 


Robot esclavo 
Siento una brisa. 

Aqui no hay nada. 

Siento una brisa, huelo un hedor 
y veo un resplandor. 


Amo 
Ve a 1 2. 

Ve al norte. 

Toma el oro. 


22.2 Una gramâtica formai para un fragmento 
del espanol 


En esta secciôn definimos una gramâtica formai para un pequeno fragmento del inglés 
(castellano) que es adecuado para hacer afirmaciones sobre el mundo del wumpus. A este 
lenguaje le llamaremos e 0 . Secciones posteriores mejorarân e 0 para hacerlo algo mâs cer- 
cano al espanol real. Es improbable idear una gramâtica compléta para el espanol, aun- 
que solo sea porque dos personas no se pondrfan totalmente de acuerdo sobre lo que cons- 
tituye espanol vâlido. 
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LÉXICO 


CLASES ABIERTAS 

CLASES CERRADAS 


El léxico de e 0 

Primero definiremos el léxico o lista de palabras permitidas. Las palabras se agrupan en 
categorias o partes del habla conocidas por los usuarios del diccionario: sustantivos, pro¬ 
nombres y nombres para denotar cosas, verbos para denotar sucesos, adjetivos para mo- 
dificar sustantivos y adverbios para modificar verbos. Las categorias que quizâ sean me- 
nos familiares para algunos lectores son los articulos (taies como el), preposiciones {en) 
y conjunciones (y). La Figura 22.3 muestra un pequeno léxico. 

Cada una de las categorias finaliza con ... para indicar que hay otras palabras en la ca- 
tegoria. Sin embargo, debe hacerse notar que hay dos razones distintas para la falta de pa¬ 
labras. Enprincipio no es factible listar todos los sustantivos, verbos, adjetivos y adverbios. 
No hay decenas de miles de miembros en cada clase, sino porque constantemente son ana- 
didos otros nuevos (como MP3 o anime). Estas cuatro categorias son llamadas clases abier- 
tas. Las otras categorias (pronombres, articulos, preposiciones y conjunciones) son llamadas 
clases cerradas. Estas tienen un pequeno nümero de palabras (desde unas pocas a unas 
pocas docenas) que pueden en principio ser enumeradas completamente. Las clases cerradas 
cambian con el paso de los siglos, no de meses. Por ejemplo, «thee» y «thou» 2 fueron pro¬ 
nombres habitualmente usados en el siglo xvn, fueron decayendo en el siglo xix y hoy en 
dia solo son vistos en poesia y algunos dialectos régionales. 


Sustantivo 


hedor | brisa resplandor | nada agente wumpus foso oro este ... 

Verbo 

-> 

es | ver oler | disparar sentir | heder | ir | tomar | llevar 



matar | girar ... 

Adjetivo 

-» 

derecho | izquierdo oriental muerto posterior | hediondo ... 

Adverbio 


aqui | alli cerca adelante correctamente [ a la izquierda al este 



al sur | atrâs ... 

Pronombre 


mi | tû | yo ello ... 

Nombre 


Juan Maria Alicante | Aristôteles ... 

Artîculo 


el | un ... 

Preposiciôn 

-H* 

a en | sobre [ ... 

Conjunciôn 

-» 

y | o pero ... 

Di'gito 


0|1|2|3|4|5|6|7|8|9 

Figura 22.3 

El léxico para £ 0 . 


La Gramâtica de e 0 

El siguiente paso es combinar las palabras en frases. Usaremos cinco simbolos no ter¬ 
minales para définir las diferentes clases de frases: sentencia (S), frase nominal ( FN ), 
frase verbal ( FV ), frase preposicional (FP) y oraciôn relativa ( OracionRel ) 3 . La Figu- 


2 Nota del traductor: ti y tu en inglés antiguo. 

3 Una oracion relativa sigue y modifica a una frase nominal. Consta de un pronombre relativo (tal como 
«quien» o «que») seguido por una frase verbal. (En el Ejercicio 22.12 se discute otra clase de oracion rela¬ 
tiva.) Un ejemplo de oracion relativa es que huele mal en «El wumpus que huele mal esta en 2 2». 
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S 


FNFV 

Yo + siento una brisa 




S Conjunciôn S 

Yo siento una brisa + y + yo huelo a wumpus 

FN 


Pronombre 

Yo 




Nombre 

Juan 




Sustantivo 

foso 




Artîculo del sustantivo 

el + wumpus 




Dîgito Dîgito 

34 




FN F P 

el wumpus + al este 




FN OracionRel 

el wumpus + que es hediondo 

FV 


Verbo 

huele mal 




FVFN 

siento + una brisa 




FV Adjetivo 

es hediondo 




FV F P 

gira + al este 




FV Advervio 

ve + adelante 

FP 

-> 

Préposition FN 

a + el este 

OracionRel 


que FV 

que + es hediondo 

Figura 22.4 

La gramâtica para £ 0 , con frases de ejemplo para cada régla. 


ra 22.4 muestra una gramâtica para e 0 , con un ejemplo para cada régla de reescritura. s 0 
généra sentencias correctas de espanol como: 

Juan esta en el foso 

El wumpus que huele mal esta en 2 2 

Maria esta en Boston y Juan huele mal 

sobregenera Desafortunadamente, la gramâtica sobregenera: esto es, généra sentencias que no son 

gramaticales, taies como «Mi ir Boston» y «Yo huelo foso oro wumpus nada este». Tam- 
subgeneraciôn bién subgenera hay muchas sentencias de inglés (castellano) que rechaza, taies como 

«Yo pienso que el wumpus es hediondo». (Otra deficiencia es que la gramâtica no pone 
en mayüsculas la primera palabra de una sentencia, ni anade puntuacion al final. Esto 
es porque estâ disenada principalmente para hablar, no para escribir.) 


22.3 Anâlisis sintâctico 


Hemos definido anteriormente el anâlisis sintâctico como el proceso de encontrar un 
ârbol sintâctico para una cadena de entrada dada. Esto es, una llamada a la funciôn Anâ- 
lisisSintâctico, tal que 

AnâlisisSintâctico («el wumpus estâ muerto», e 0 , S) 
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debe devolver un ârbol sintâctico con raiz S cuyas hojas son «el wumpus esta muerto» 
y cuyos nodos internos son simbolos no terminales de la gramâtica s 0 . Se puede ver di- 
cho ârbol en la Figura 22.1. En texto lineal, escribimos el ârbol como 

[S: [FN: [Articuler, el ][Sustantivo: wumpus ]] 

[FV: [ Verbo : esta ]\Adjetivo: muerto]]] 


ANÂUSIS 

ASCENDENTE 


ANÂUSIS 

DESCENDENTE 


El anâlisis sintâctico puede ser visto como un proceso de busqueda del ârbol sintâcti¬ 
co. Hay dos formas extremas de especificar el espacio de busqueda (y muchas varian¬ 
tes entre ellas). En la primera, podemos empezar con simbolo S y buscar un ârbol que 
tenga las palabras en sus hojas. Este modo se llama anâlisis descendente (ya que S es 
dibujado en lo alto del ârbol). En la segunda, podemos empezar con las palabras y bus¬ 
car un ârbol con raiz S. Este modo se llama anâlisis ascendente 4 . El anâlisis descendente 
puede ser definido precisamente como un problema de busqueda tal que: 


• El estado inicial es un ârbol sintâctico que consta de la raiz S y un hijo descono- 
cido: [5: ?]. En general, cada estado del espacio de büsqueda es un ârbol sintâcti¬ 
co. 

• La funciôn sucesor selecciona el nodo mâs a la izquierda del ârbol con hijo des- 
conocido. Enfonces busca en la gramâtica réglas que tengan la étiqueta raiz del nodo 
en el lado izquierdo. Por cada una de estas réglas, créa un estado sucesor donde 
el ? es reemplazado por la lista correspondiente al lado derecho de la régla. Por 
ejemplo, en s 0 hay dos réglas para S, asi que el ârbol [5: ?] podria ser reemplaza¬ 
do por los dos sucesores siguientes: 


[S: [S: mConjunciôn: ?][S: ?]] 
[S: [FN: 1][FV: ?]] 


La segunda de estas tiene siete sucesores, uno por cada régla de reescritura de FN. 
• La prueba (criterio) de fînalizaciôn contrôla que las hojas del ârbol sintâctico 
correspondan exactamente a la cadena de entrada, sin entradas desconocidas ni 
descubiertas. 


Un gran problema para el anâlisis descendente es hacer frente a las llamadas réglas re- 
cursivas por la izquierda, esto es, réglas de la forma Con la büsqueda primero 

en profundidad, dichas réglas podrfan llevarnos a seguir reemplazando X con [X: X ...] 
en un bucle infinito. Con la büsqueda de primero en anchura podriamos encontrar exi- 
tosamente ârboles sintâcticos para sentencias vâlidas, pero cuando se nos da una sen- 
tencia invâlida, podriamos quedar atascados en un espacio de büsqueda infinito. 

La formulacion del anâlisis ascendente como una büsqueda es como sigue: 

• El estado inicial es una lista de las palabras de la cadena de entrada, cada una vis- 
ta como un ârbol sintâctico consistente en un ünico nodo hoja, por ejemplo [el, 
wumpus, estâ, muerto]. En general, cada estado del espacio de büsqueda es una 
lista de ârboles sintâcticos. 


4 El lector debe darse cuenta de que el anâlisis descendente y el ascendente son anâlogos al encadenamien- 
to hacia atrâs y hacia delante, respectivamente, descritos en el Capitulo 7. Veremos brevemente que la ana- 
logfa es exacta. 
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• La funciôn sucesor mira en cada posiciôn i de la lista de ârboles y en cada lado 
derecho de las réglas de la gramâtica. Si la subsecuencia de la lista de ârboles que 
empieza en i empareja con el lado derecho, enfonces la subsecuencia es reempla- 
zada por un nuevo ârbol cuya categoria es el lado izquierdo de la régla y cuyo hijo 
es la subsecuencia. Por «emparejar» queremos decir que la categoria del nodo es 
la misma que el elemento del lado derecho. Por ejemplo, la régla Artîculo —> el 
empareja la subscuencia que consta del primer nodo de la lista [el, wiunpus, esta, 
muerto], asique un estado sucesor podria ser \ \Articula: el], wumpus, esta, muer- 
to]. 

• La prueba (criterio) de fînalizaciôn comprueba el estado que conste de un ârbol 
sencillo con raiz S. 

En la Figura 22.5 podemos ver un ejemplo de un anâlisis ascendente. 


paso 

lista de nodos 

subsecuencia 

régla 

Init 

el wumpus esta muerto 

el 

Artîculo —> el 

2 

Artîculo wumpus esta muerto 

wumpus 

Sustantivo —> wumpus 

3 

Artîculo Sustantivo esta muerto 

Artîculo Sustantivo 

FN —» Artîculo Sustantivo 

4 

FN esta muerto 

esta 

Verbo — » esta 

5 

FN Verbo muerto 

muerto 

Adjetivo — > muerto 

6 

FN Verbo Adjetivo 

Verbo 

FV —» Verbo 

7 

FN FV Adjetivo 

FV Adjetivo 

FV —» FV Adjetivo 

8 

FNFV 

FNFV 

S —» FN FV 

Objetivo 

S 




Figura 22.5 Traza de un anâlisis ascendente de la cadena «El wumpus esta muerto». Empeza- 
mos con una lista de nodos consistentes en palabras. Después reemplazamos subsecuencias que em- 
parejan el lado derecho de una régla con un nuevo nodo cuya raiz es el lado izquierdo. Por ejem¬ 
plo, en la tercera linea los nodos Artîculo y Sustantivo son reemplazados por un nodo FN que tiene 
estos dos nodos como hijos. El anâlisis descendente produciria una traza similar, pero en la direc- 
cion opuesta. 


Tanto el anâlisis ascendente como el descendente pueden ser ineficientes, debido 
a la multiplicidad de maneras en las cuales mültiples ârboles sintâcticos para dife- 
rentes frases pueden ser combinados. Ambos pueden malgastar tiempo buscando 
irrelevantes porciones del espacio de büsqueda. El anâlisis descendente puede gene- 
rar nodos intermedios que nunca podrân ser sujetados por palabras, y el anâlisis 
ascendente puede generar anâlisis parciales de las palabras que no pueden aparecer en 
un S. 

Incluso si tuviésemos una funciôn heuristica perfecta que nos permitiera buscar sin 
ninguna digresiôn irrelevante, estos algoritmos podrian todavia ser ineficientes, ya que 
algunas sentencias tienen exponencialmente muchos ârboles sintâcticos. La siguiente sub- 
secciôn muestra qué hacer en estos casos. 
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Anâlisis sintâctico eficiente 


Consideremos las siguientes dos sentencias 5 : 

Hâve the students in section 2 of Computer Science 101 take the exam. 

(Los estudiantes de la seccion 2 de Ciencia de la Computacion 101 han reali/ado el 
examen.) 

Hâve the students in section 2 of Computer Science 101 taken the exam? 

Q.Han realizado el examen los estudiantes de la seccion 2 de Ciencia de la Compu¬ 
tacion 101?) 



GRAFO 


N0D0S 


ARCOS 


Incluso aunque comparten las 10 primeras palabras, estas sentencias tiene anâlisis sin- 
tâcticos muy diferentes, ya que la primera es una orden y la segunda una pregunta. Un 
algoritmo de anâlisis sintâctico de izquierda a derecha tendria que suponer si la prime¬ 
ra palabra es parte de una orden o de una pregunta y no podrfa decir si la suposicion es 
correcta al menos hasta la undécima palabra, take o taken. Si el algoritmo supone equi- 
vocadamente, tendrâ que deshacer todo el camino hasta la primera palabra. Esta clase 
de vuelta atrâs es inévitable, pero si nuestro algoritmo de anâlisis sintâctico pretende ser 
eficiente, debe evitar reanalizar «the students in section 2 of Computer Science 101» como 
un FN cada vez que rétrocéda. 

En esta seccion, desarrollaremos un algoritmo de anâlisis sintâctico que évita esta 
fuente de ineficiencias. La idea bâsica es un ejemplo de programaciôn dinâmica: cada 
vez que analizamos una subcadena, almacenamos el resultado de forma que no tene- 
mos que reanalizarla posteriormente. Por ejemplo, una vez que descubrimos que «the 
students in section 2 of Computer Science 101» es una FN, podemos registrar este re¬ 
sultado en una estructura de datos conocida como un grafo. Los algoritmos que hacen 
esto son llamados analizadores sintâcticos con grafos. Debido a que estamos tratando 
con gramâticas independientes del contexto, cualquier frase que se encontrase en el con¬ 
texte de una rama del espacio de büsqueda puede funcionar igualmente bien en cualquier 
otra rama del espacio de büsqueda. 

El grafo para una sentencia de n palabras consta de n + 1 nodos y un nümero de ar- 
cos que conectan nodos. La Figura 22.6 muestra un grafo con seis nodos (circulos) y très 
arcos (lineas). Por ejemplo, el arco etiquetado 

[0,5, S-+FNFV •] 


significa que una FN seguida por una FV se combinan para formar una S que cruza la 
cadena desde 0 hasta 5. El simbolo • en un arco sépara lo que ha sido encontrado hasta 
el momento de lo que queda por encontrar 6 . Los arcos con • al final son llamados arcos 
completos. El arco 

[0,2, S —> FTV • FV] 


5 Nota del traductor: mantendremos, en este caso y otros posteriores, las frases del original inglés para po- 
der seguir el argumenta del autor, en este caso de la coincidencia de las palabras, ya que en rnuchos casos 
hacen referencia a particularidades de la gramâtica inglesa. 

6 Debido al • los arcos son llamados a veces réglas punteadas. 
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J 

[0, 5S-+FNFV»] 

\> 

[0, 2 S —> FN • FV] [2, 5 FV -> Verbo FN •] 

. El —^ agente X, siente una brisa 

—O- 5 — vy=-Q )—®-( 

Figura 22.6 Parte del grafo para la sentencia «El agente siente una brisa». Se muestran los seis 
nodos, pero solamente très de los arcos que pueden componer un anâlisis sintâctico completo. 


dice que una FN cruza la cadena de 0 a 2 (las dos primeras palabras) y que si podemos 
encontrar a continuaciôn una FV, enfonces podemos formai - una S. Los arcos como este 
con el punto antes del final son llamados arcos incompletos, y decimos que el arco esta 
buscando una FV. 

La Figura 22.7 muestra un algoritmo de anâlisis sintâctico con grafo. La idea prin¬ 
cipal es combinar lo mejor del anâlisis sintâctico ascendente y del descendente. El pro- 
cedimiento Predecir descendente: transforma las entradas en el grafo que dicen qué sim- 
bolos son deseables y en qué localizaciones. Analizar es el procedimiento ascendente 
que se inicia en las palabras, pero que utilizarâ una ünica palabra para extender una en- 
trada de un grafo ya existente. De forma similar, Extender construye componentes des- 
cendentes, pero solamente para extender una entrada de un grafo ya existente. 

Usamos un truco para iniciar el algoritmo compléta: anadimos el arco [0, 0, S' —*■ • 5] 
al grafo, donde S es el simbolo inicial de la gramâtica, y S' es un nuevo slmbolo que aca- 
bamos de idear. La llamada a Anadir-Arco causa que el Predecir anada arcos por las 
réglas que puedan producir un S, esto es, [5 —> FN FV]. Después miramos el primer com- 
ponente de esa régla, FN, y anadimos réglas para cada manera de producir una FN. Fi- 
nalmente, el predictor (pronosticador) anade, en forma descendente, todos los posibles 
arcos que pueden ser usados para crear la S final. 

Cuando el predictor para S' finaliza, entramos en un bue le que llama a Scanner para 
cada palabra de la sentencia. Si la palabra en la posiciôn j es miembro de la categorfa B 
que algün arco estâ buscando en j, enfonces extendemos ese arco, anotando la palabra 
como una instancia de B. Observemos que cada llamada a Analizar puede acabar 11a- 
mando a Predecir y Extender recursivamente, de ese modo intercalar procesamiento 
descendente y ascendente. 

El otro componente ascendente, Extender 7 , toma un arco completo con lado iz- 
quierdo S y lo usa para extender cualquier régla incompleta del grafo que finaliza don¬ 
de el arco completo empieza si la régla incompleta estâ buscando a B. 

Las Figuras 22.8 y 22.9 muestran un grafo y una traza del algoritmo analizando la 
sentencia «Yo la percibo» («I feel it») (que es una respuesta a la pregunta «/ Sicntcs una 


7 Tradicionalmente nuestro procedimiento Extender ha sido llamado Compléter. Este nombre es engano- 
so, ya que el procedimiento no compléta arcos: toma un arco completo como entrada y extiende los arcos 
incompletos. 
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funciôn ANALizADOR-CON-GRAFO(pa/abra,s, gramâticà) devuelve grafo 

grafo *— array[0... LoNGiTUD(p«/<7Î>ra.s)] de listas vacias 
Anadir-Arco s([ 0, 0,5' —» • S]) 
para ; desde 0 a Lot\C,nvD(palahras) hacer 
Analizar(;, palabras[i]) 
devuelve grafo 

procedimiento ANADiR-ARCO(arco)) 

/* Anadir un arco al grafo y ver si extiende o predice otro arco. */ 
si arco no esta en grafo\Fmfarco)\ entonces 
anadir arco a el grafo[FiN(arco)\ 

si arco no tiene nada después del punto entonces ExTENDER(a;ro) 
sino PREDECiR(flrro) 

procedimiento Analizar(/, word) 

/* Para cada arco que espera una palabra de esta categorîa, se extiende el arco. */ 
para cada \i,j, A —> a • B fl] en grafo\j] hacer 
si palabra es de la categorîa B entonces 
Anadir-Arco([î ,7 + 1, A —» oc B • j8]) 

procedimiento Predf ; .cfr([/, /, A —> oc • B /?]) 

/* Anadir al grafo todas las réglas de B que podn'an ayudar a extender el arco */ 
para cada (B —» y) en Reescribir-Para(B, gramâtica ) hacer 

Anadir-Arco( [/,./, B—*» y]) 

procedimiento Extender! [/', k, B —» y •]) 

/* Ver qué arcos se pueden extender mediante este arco */ 
e B *— el arco que es la entrada a este procedimiento 
para cada ([/, /, A —» oc • B' fi\) en grafo\j] hacer 
si B = B' entonces 

Anadir-Arco([î, 7 , A —f» a e B • fi]) 


Figura 22.7 El algoritmo de anâlisis sintâctico con grafo. S es el sûnbolo inicial y S' es un sîm- 
bolo no terminal nuevo. grafofj] es la lista de los arcos que finalizan en el nodo j. Las letras grie- 
gas equivalen a una cadena de cero o mas sîmbolos. 


brisa?»). Trece arcos (etiquetados a-m) son registrados en el grafo, incluyendo cinco ar¬ 
cos completos (mostrados sobre los nodos del grafo) y ocho incompletos (debajo de los 
nodos). Observar el ciclo de las acciones predecir, analizar y extender. Por ejemplo, pre- 
dictor utiliza el hecho de que el arco (a) esta buscando una S para autorizar la predic- 
cion de una FN (arco b) y después un Pronombre (arco c). Entonces analizar reconoce 
que hay un Pronombre en la posicion derecha (arco d) y extender combina el arco in- 
completo b con el arco completo d para producir un nuevo arco, e. 

El algoritmo de anâlisis sintâctico con grafo évita constmir una extensa clase de ar¬ 
cos que podrian haber sido examinados por el procedimiento ascendente simple. Consi- 
deremos la sentencia «The ride the horse gave was wild» («La carrera que el caballo rea- 
lizo fue desenfrenada»). Un anâlisis sintâctico ascendente podrfa etiquetar «ride the 
horse» como una EU y después descartar el ârbol sintâctico cuando encontrara que no po- 
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nr.S 


r.FV 


h\FV k:FN 


feel 


i:FN/FV 


a:S'/S f.FVIVerbo j:FNIPronombre 

b:S/FNFV g:FV/FV FN 

c:FNIPronombre 


Figura 22.8 Grafo para el anâlisis sintâctico de « 0 Yo j lo 2 siento 3 » (« 0 I j feel 2 it 3 »), La 
notaciôn m:S significa que el arco m tiene una S en el lado izquierdo, mientras que la notacion 
f:FV/Verbo significa que el arco / tienen una FV en el lado izquierdo, pero esta buscando un 
Verbo. Hay cinco arcos completos sobre los nodos y ocho arcos incompletos debajo de ellos. 




Arco 

Procedimiento 

Derivacion 

a 

Iniciar 

[0, 0, S’ • 5] 

b 

PREDECIR(a) 

[0, 0 ,S^-FNFV] 

c 

PREDECIR(b) 

[0, 0, FN —> • Pronombre] 

d 

Analizar(c) 

[0, 1, FN —» Pronombre •] 

e 

EXTENDER(b.d) 

[0, 1, S^FN-FV] 

f 

PREDECIR(e) 

[1, 1, FV • Verbo] 

g 

PREDECIR(e) 

[1, 1 ,FV-*'FVFN] 

h 

ANALIZAR(f) 

[1,2, FV —* Verbo •] 

i 

EXTENDER(g.h) 

[1,2, FV — » FV • FN] 

j 

PREDECIR(g) 

[2, 2, FN —* • Pronombre] 

k 

Analizar(j) 

[2, 3, FN Pronombre •] 

1 

EXTENDER(i.k) 

[1, 3, FV —> FV FN •] 

m 

EXTENDER(e.l) 

[0, 3, FN FV'] 

Figura 22.9 Traza del anâlisis sintâctico de « 0 Yo , lo 2 siento 3 » (« 0 1, feel 2 it 3 »). Para cada arco 

a-m, mostramos el procedimiento usado para derivar el arco desde otros arcos ya existentes en el 
grafo. Por brevedad omitimos algunos arcos. 


dia encajarlo en una S mas amplia. Pero e 0 no permite que una FV siga a «el», asi que el 
algoritmo de anâlisis sintâctico con grafo nunca predecirâ una FV en este punto y por tan- 
to evitarâ perder tiempo construyendo la componente FV aqui. Los algoritmos que tra- 
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EXTREMO IZQUIERDO 


bajan de izquierda a derecha y evitan construir estos componentes imposibles son llamados 
analizadores sintâcticos de extremo izquierdo, debido a que montan el ârbol sintâctico 
que empieza con el elemento inicial de la gramâtica y extienden la palabra mas a la iz¬ 
quierda de la sentencia (el extremo izquierdo). Unicamente se anadirâ un arco al grafo si 
puede servir para extender este ârbol sintâctico. (Véase la Figura 22.10 como ejemplo). 

El analizador sintâctico con grafo utiliza ünicamente tiempo y espacio polinomial. 
Requiere espacio para almacenar arcos del orden 0(kn 2 ), donde n es el numéro de pa¬ 
labras de la sentencia y A: es una constante que dépende de la gramâtica. Cuando no pue¬ 
de construir - mâs arcos, para, asi sabemos que el algoritmo termina (incluso cuando hay 
réglas recursivas por la izquierda). De hecho, tarda de orden de 0(n 3 ) en el peor de los 
casos, lo cual es lo mejor que se puede conseguir para gramâticas independientes del con¬ 
texte. El cuello de botella para Analizador-Con-Grafo es Extender, el cual debe in- 
tentar extender cada uno de los O(n) arcos incompletos que finalizan en la posiciôn j con 
cada uno de los O(n) arcos complètes que empiezan en j, para cada uno de los n + 1 va- 
lores diferentes de j. Multiplieândolos obtenemos 0{n 3 ). Esto nos da una especie de pa- 
radoja: /como puede un algoritmo de 0(>i ] ) devolver una respuesta que puede contener 
un numéro exponencial de ârboles sintâcticos? Consideremos un ejemplo: la sentencia 

«Fall leaves fall and spring leaves spring» 

(Las hojas otonales caen y las hojas primaverales brotan) 

es ambigua ya que cada palabra (excepto «and») puede ser tanto sustantivo como ver- 
bo, y «fall» y «spring» pueden ser también adjetivos. En total, la sentencia tiene cuatro 
anâlisis sintâcticos 8 : 


S 



FN FV 



FN OraciônRel 



La carrera que el caballo realizô fue desenfrenada 


Figura 22.10 Un algoritmo de anâlisis sintâctico de extremo izquierdo évita predecir una FV em- 
pezando en «ride», pero no predice una FV empezando en «was», ya que la gramâtica espera que 
una FV siga a una FN. El triângulo sobre «the horse gave» significa que las palabras han pasado 
un anâlisis sintâctico con una OraciônRel, pero con componentes intermedios adicionales que no 
son mostrados. 


s El anâlisis sintâctico [5: Fall [FV\ leaves fall]] es équivalente a «Autumn abandons autumn» (El otono aban- 
dona al otono). 
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BQSQUE 

EMPAQUETADO 


[5: [5: [FN: Fall leaves ] fall] and [5: \FN: spring leaves] spring]; 

[5: [5: [FN: Fall leaves] fall] and [5: spring [FV: leaves spring]]; 

[5: [5: Fall [FV: leaves fall]] and [5: [FN: spring leaves] spring]; 

[5: [5: Fall [FV: leaves fall]] and [5: spring [FV: leaves spring]]. 

Si tuviésemos conjuntamente n subsentencias ambiguas, podriamos tener 2" maneras 
de elegir anâlisis sintâcticos para las subsentencias 9 . ^Cômo debe el analizador sintâc- 
tico con grafo evitar un tiempo de procesamiento exponencial? Realmente hay dos res- 
puestas. La primera es que el algoritmo Chart-Parse en si mismo es realmente un reco- 
nocedor, no un analizador. Si hay un arco completo de la forma [0, n, S —» a •] en el 
grafo, enfonces hemos reconocido una S. La recuperaciôn del ârbol sintâctico desde este 
arco no es considerado parte del trabajo de Chart-Parse, pero puede hacerlo. Obser- 
var, en la ültima linea de Extender, que montamos a como una lista de arcos, e B , no 
como una lista de nombres de categorias. Asi, para convertir un arco en un ârbol sin¬ 
tâctico, simplemente miramos recursivamente a los arcos componentes, convirtiendo 
cada [i,j, X —» a •] en el ârbol [X : a]. Esto es sencillo, pero nos da solo un ârbol sin¬ 
tâctico. 

La segunda respuesta es que si quiere todos los posibles anâlisis sintâcticos, tendrâ 
que escarbar profundamente en el grafo. Mientras estamos convirtiendo el arco 
[/, /, X —> y. •] en el ârbol [X : a], también miraremos para ver si hay otros arcos de la 
forma [i,j, X —»/?•]. Si los hay, estos arcos generarân anâlisis sintâcticos adicionales. 
Ahora tenemos una selecciôn de lo que podemos hacer con ellos. Podemos enumerar to- 
das las posibilidades, y esto significa que la paradoja puede ser resuelta y podriamos ne- 
cesitar una cantidad exponencial de tiempo para listar los anâlisis sintâcticos. O pode¬ 
mos prolongar el misterio un poco mâs y representar los anâlisis sintâcticos con una 
estructura llamada bosque empaquetado, la cual se parece a esto: 

J[FW: Fall leaves] [FL: fallfl j[ F N: spring leaves][FL: spring]] 

| [FN: Fall] [FV: leaves fall]J j[F7V: spring] [FV: leaves spring]J 

La idea es que cada nodo pueda ser o bien un nodo de un ârbol sintâctico regular o un 
conjunto de nodos ârbol. Esto nos permitirâ devolver una representaciôn de un nümero 
exponencial de anâlisis sintâcticos en una cantidad de tiempo y espacio polinomial. Desde 
luego, cuando n = 2, no hay muchas diferencias entre 2" y 2 n, pero para n grande, esta 
representaciôn proporciona un ahorro considérable. Desafortunadamente, esta simple 
aproximaciôn de bosque empaquetado no manejarâ todas las 0(n!) ambigüedades de 
como se asocian las conjunciones. Maxwell y Kaplan (1995) muestran como una re¬ 
presentaciôn mâs compleja, basada en los principios de los sistemas de mantenimiento 
de la coherencia puede empaquetar los ârboles aün mâs ajustadamente. 


9 También podria ser una ambigüedad 0(n\) en la manera en que los componentes se juntan entre ellos, 
por ejemplo, (X y (Y y Z)) trente ((X y Y) y Z). Pero esto es otra historia, una que esta bastante bien explicada 
por Church y Patil (1982). 
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22.4 Gramâticas aumentadas 


En el Apartado 22.2 vimos que una gramâtica simple para s 0 généra «Yo huelo un he- 
dor» («I smell a stench») y otras frases de inglés. Desafortunadamente, también généra 
muchas frases incorrectas como «Mi huelo un hedor» («Me smell a stench»). Para evitar 
este problema, nuestra gramâtica deberia conocer que «me» no es un FN valida cuando 
es el sujeto de una frase. Los lingüistas dicen que el pronombre «Yo» se emplea en el caso 
subjetivo, y «mi» en el caso objetivo 10 . Cuando tenemos los casos en cuenta comprende- 
mos que e 0 no es una gramâtica independiente del contexto: no es verdad que cualquier 
FN sea igual a cualquier otra sin hacer caso del contexto. Podemos arreglar el problema 
introduciendo nuevas categorfas taies como FN S y FN 0 , para soportar frases sustantivas 
en los casos subjetivo y objetivo, respectivamente. También necesitamos separar la cate- 
gorfa Pronombre en las dos categorfas Pronombre s (que incluye «yo») y Pronombre 0 (que 
incluye «mi»), La parte superior de la Ligura 22.11 muestra la gramâtica BNL compléta 
para el caso convenido; podemos llamar al lenguaje résultante £,. Hay que resenar que 
todas las réglas de las FN deben ser duplicadas, una vez para las FN S y otra para las FN 0 . 

Desafortunadamente, e, todavfa sobregenera. El espanol y otros muchos lenguajes 
requieren concordancia entre el sujeto y el verbo principal de una frase. Por ejemplo, 

CONCORDANCIA n f J f 

si «yo» es el sujeto, enfonces «yo huelo» es gramaticalmente correcto, pero «yo huele» 
no lo es. Si «ello» es el sujeto, tenemos el caso inverso. En inglés, las distinciones por 
convenio son mfnimas: la mayoria de los verbos tienen una forma para los sujetos sin- 
gulares en tercera persona (él, ella o ello), y una segunda forma para todas las otras com- 


FN S FV | ... 

FN S —> Pronombre s \ Nombre \ Sustantivo \ 
FN 0 —> Pronombre 0 \ Nombre \ Sustantivo 
FV —> FVFN 0 1 ... 

FP —> Preposiciôn FN 0 
Pronombre s —> Yo | tu | el | ella | ello | ... 
Pronombre 0 —> mi | tu | su | ... 


5 

FN(caso) 

FV 

FP 

Pronombre(Subjetivo) 

Pronombre(Objetivo) 


FN(Subjetivo) FV \ ... 

Pronombre(caso) \ Nombre \ Sustantivo 
FV FNiObjetivo ) | ... 

Preposiciôn FN(Objetivo) 

Yo | tu | el | ella | ello | ... 
mi I tu I su I ... 


Figura 22.11 Arriba: una gramâtica en BNF para el lenguaje e,, la cual maneja casos objetivos 
y subjetivos en frases sustantivas y de esta forma no sobregenera demasiado incorrectamente. Se 
han omitido las porciones que son idénticas a e 0 . Abajo: una gramâtica de clâusulas definidas (DCG) 
de Ej. 


10 El caso subjetivo también es a veces llamado el caso nominativo y el caso objetivo es llamado el caso acu- 
sativo. Muchos lenguajes también tienen un caso dativo para palabras en la posicion del objeto indirecto. 
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AUMENTAR 


GRAMÂTICA 
DE CLÂUSULAS 
DEFINIDAS 



binaciones de persona y numéro. Hay una excepciôn: «I am / you are / he is» tiene très 
formas. Si multiplicamos estas très distinciones por las dos distinciones FN S y FN 0 , aca- 
bamos con seis formas de FN. Como descubriremos mas distinciones, acabaremos em- 
pleando nümeros exponenciales. 

La alternativa es aumentar las réglas de la gramâtica en vez de introducir nuevas 
réglas. Daremos primero un ejemplo de como queremos representar una régla aumen- 
tada. Las réglas aumentadas permiten parâmetros para las categorias no terminales. La 
Figura 22.11 muestra como describir £, empleando réglas aumentadas. Las categorias 
FN y Pronombre tienen un paramétra indicando su caso. (Los sustantivos no tienen caso 
en inglés, aunque lo tienen en muchos otros lenguajes.) En la régla para S, la FN debe 
estar en caso subjetivo, mientras que en las réglas para FV y FP, la FN debe estar en caso 
objetivo. La régla para FN toma una variable, caso, como su argumento. La intenciôn 
es que la FN pueda tener cualquier caso, pero si la FN es rescrita como Pronombre, en¬ 
fonces ésta tenga el mismo caso. Este uso de una variable (evitando una decision don- 
de la distinciôn no es importante) es lo que mantiene el tamano del conjunto de réglas 
evitando un crecimiento exponencial con el nümero de caracteristicas. 

Este formalismo para aumentar es llamado gramâtica de clâusulas defînidas o DCG 
(,definite clause grammar), debido a que cada régla gramatical puede ser interpretada 
como una clâusula definida en la lôgica de Horn 11 . Primero mostraremos como una ré¬ 
gla normal, no aumentada, puede ser interpretada como una clâusula definida. Consi- 
deremos cada srmbolo de categorfa como un predicado sobre cadenas, de forma que F N (s) 
es verdad si la cadena s forma una FN. La régla CFG 

S —» FN FV 

es la forma reducida de la clâusula definida 


FN(s 1 )aFV(s 2 )=>S(s 1 + s 2 ) 

Aqui s : + s 2 dénota la concatenaciôn de dos cadenas, por tanto esta régla dice que si la 
cadena s l es una FN y la cadena s 2 es una FV, enfonces su concatenaciôn es una S, que 
es exactamente como estamos interpretando la régla CFG. Es importante hacer notar que 
dichas DCG’s nos permiten hablar del anâlisis sintâctico como inferencia lôgica. Esto 
hace posible razonar sobre lenguajes y cadenas de formas muy diversas. Por ejemplo, 
significa que podemos hacer un anâlisis sintâctico ascendente empleando encadenamiento 
hacia adelante o anâlisis sintâctico descendente empleando encadenamiento hacia atrâs. 
Veremos que también esto significa que podemos usar la misma gramâtica tanto para el 
anâlisis sintâctico como para la generaciôn. 

El beneficio real del enfoque DCG es que podemos aumentar la categoria de simbo- 
los con argumentas adicionales aparté de los argumentas de cadena. Por ejemplo, la régla 


es la abreviatura de 


FN{caso) —> Pronombre(caso) 
Pronombreicaso, .s ,) => FN(caso, .v,) 


11 Recordar que una clâusula definida, cuando se escribe como una implicacion, tiene exactamente un 
âtomo en su consecuente, y una conjuncion de cero o mâs âtomos en su antecedente. Dos ejemplos son 
A a B => C y solo C. 
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SUBCATEGORIZACIÔN 
LISTA DE 

SUBCATEGORIZACION 

COMPLEMENTOS 


Esta dice que si la cadena s l es un Pronombre con el caso especificado por la variable caso, 
enfonces s 1 es también una FN con el mismo caso. En general, podemos aumentar la ca- 
tegoria de simbolos con cualquier nümero de argumentos, y los argumentas son paramé¬ 
tras que son susceptibles de unificarse como en la inferencia regular de clâusulas de Elorn. 

Hay que pagar un precio por esta ventaja: estamos proporcionando al escritor de gra- 
mâticas el poder compléta de un demostrador de teoremas, por tanto debemos propor- 
cionar las garantias de un anâlisis sintâctico de orden 0(« 3 ); el anâlisis sintâctico con au- 
mentos puede ser NP-completo o incluso indecidible, dependiendo de los aumentos. 

Unas cuantas argucias mas son necesarias para hacer que la DCG funcione; por ejem- 
plo, necesitamos una manera de especificar los simbolos terminales, y es conveniente 
tener una manera de no anadir automâticamente el argumento de cadena. Poniendo todo 
junto, definimos una gramâtica de clâusulas definidas como sigue: 

• La notacion X —» Y Z ... se traduce como 7(5^) a Z(s 2 ) a ... => + s 0 + ...). 

• La notacion X —» Y \ Z | ... se traduce como Y (s) v Z(.v) v ... => X(s). 

• En cualquiera de las réglas anteriores, cualquier simbolo Y puede ser aumentado 
con uno o mas argumentos. Cada argumento puede ser una variable, una constan¬ 
te o una funciôn de argumentos. En la traducciôn, estos argumentos preceden a la 
cadena de argumentos (por ejemplo, FN(caso) se traduce como FN{caso, .s ,)). 

• La notacion {P(...) ( puede aparecer en el lado derecho de una régla y se traduce 
palabra por palabra en P {...). Esto permite al escritor de gramâticas insertar una 
prueba para P {...) sin tener anadido el argumento de cadena automâtico. 

• La notacion X —» palabra se traduce como X(\palabra}). 

El problema de la concordancia sujeto-verbo podria ser también manejado con aumentos, 
pero dejaremos esto para el Ejercicio 22.2. En vez de esto abordaremos un problema mas 
dificil: la subcategorizaciôn del verbo. 

Subcategorizaciôn del verbo 

gj es una mejora sobre e 0 , pero la gramâtica g, todavia sobregenera. Un problema estâ en la 
manera en la que las frases verbales se colocan juntas. Queremos aceptar frases verbales 
como «dame el oro» y «ve a 1 2». Todas ellas estân en s p pero desafortunadamente tam¬ 
bién lo estân «ve me el oro» y «da a 1 2». El lenguaje e 2 élimina estas FV declarando ex- 
plicitamente qué frases pueden seguir a qué verbos. Llamamos a esta lista la lista de sub¬ 
categorizaciôn para el verbo. La idea es que la categoria Verbo se parte en subcategorias: 
una para verbos que no tienen objeto, otra para verbos que tiene un objeto ünico, y asi. 

Para implementar esta idea, daremos a cada verbo una lista de subcategorizaciôn 
que enumere los complementos de los verbos. Un complemento es una frase obligato- 
ria que sigue al verbo dentro de la frase verbal. Asi en «Da el oro a mi», la FN «el oro» 
y el FP «a mi» son complementos de «da» 12 . Deberfamos escribir esto como 

Verbo([FN, F P]) —» dar | mano |... 


12 Esta es una definicion de complemento , pero otros autores emplean una terminologia diferente. Algunos 
dicen que el sujeto de un verbo es también un complemento. Otros dicen que una frase preposicional es un 
complemento y que la frase nominal deberîa llamarse argumento. 
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Es posible para un verbo tener varias subcategorizaciones diferentes, tal y como es po- 
sible para una palabra pertenecer a varias categorias diferentes. De hecho, «da» también 
tiene la lista de subcategorizacion [FN, FP], como en «Dame el oro». Podemos tratar 
esto como otro tipo de ambigüedad. La Figura 22.12 proporciona varios ejemplos de ver- 
bos y sus listas de subcategorizacion (o subcat. para abreviar). 

Para integrar la subcategorizacion del verbo en la gramâtica, realizamos très pasos. 
El primer paso es aumentar la categoria FV para que tome un argumento de subcatego¬ 
rizacion, FV(subcat.) que indica la lista de complementos que es necesaria para formar 
una FV compléta. Por ejemplo, «da» puede ser convertido en una FV compléta anadiendo 
[FN, FP], «da el oro» se puede hacer compléta anadiendo [FP], y «da el oro a mi» es 
ya una FV compléta. Por tanto su lista de subcategorizacion es la lista vacia, []. Esto nos 
proporciona estas réglas para FV: 

FV{subcat) —»• Verbo{subcat) 

FVisubcat + [FN]) FN{Objetivo) 

FV (subcat + [ Adjetivo ]) Adjetivo 
FV (subcat + [FP]) FF 

La ültima linea pueden ser leida como «Una FV con una lista de subcat, subcat, puede 
ser formada por una FV embebida seguida por una FF, asi como la FV embebida tiene 
una lista de subcat que comienza con los elementos de la lista subcat y termina con el 
simbolo FF». Por ejemplo, una FV(\\) esta formada por una FV(\FP\) seguida por una 
FF. La primera linea dice que FV con la lista de subcategorizacion subcat puede ser for¬ 
mada por un Verbo con la misma lista de subcategorizacion. Por ejemplo, una FV(\FN\) 
puede ser formada por un Verbo([FN\). Un ejemplos de tal verbo es «tomar», por tanto 
«toma el oro» es una FV([]). 

El segundo paso es cambiar la régla para S para decir que requiere de una frase ver¬ 
bal que tenga todos sus complementos y por tanto tenga la lista subcat []. Esto signifi- 
ca que «Yo tomo el oro» es una frase legal, pero «Tü das» no lo es. La nueva régla 

5 -* F N {Sujet o) FV (\]) 


Verbo 

Subcat. 

Ejemplo de frase verbal 

Dar 

[FN, F P] 

Dame el oro en 3 3 


[FN, FP] 

Dame el oro 

Oler 

[FN] 

Huelo un wumpus 


[Adjetivo] 

Huele fatal 


[FP] 

Huele como un wumpus 

Es 

[Adjetivo] 

Es apestoso 


[FP] 

Esta en 2 2 


[FN] 

Es un foso 

Muerto 

U 

Muerto 

Créé 

[S] 

Creo que el wumpus esta muerto 

Figura 22.12 Ejemplos de verbos con sus listas de subcategorizacion. 
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ADJUNTOS 


ESQUEMA DE REGLAS 


puede ser leida como «Una frase puede ser compuesta por una FN en el caso subjetivo, 
seguido por una FV que tenga una lista de subcat nula». La Figura 22.13 muestra un âr- 
bol sintâctico empleando esta gramâtica. 

El tercer paso es recordar que, ademâs de los complementos, las frases verbales (y 
otras frases) pueden también actuar como adjuntos, que son frases que no son autori- 
zadas por el verbo individual sino mas bien pueden aparecer en cualquier frase verbal. 
Las frases que representan tiempo y espacio son adjuntas, porque casi cualquier acciôn 
o evento puede tener un tiempo o espacio. Por ejemplo, el adverbio «ahora» en «Yo huelo 
un wumpus ahora» y la FF «el martes» en «dame le oro el martes» son adjuntos. Aqui 
hay dos réglas que permiten adjuntos porposicionales y adverbiales en cualquier FV: 

FVisubcat ) —» FV(subcat ) FF 

FV(subcat) Adverbio 



Capacidad generativa de las gramâticas aumentadas 

Cada régla aumentada es un esquema de réglas, que déclara un conjunto de réglas, una 
para cada posible combinaciôn de valores para los componentes aumentados. La capaci¬ 
dad generativa de las gramâticas aumentadas dépende del nümero de combinaciones. Si 
hay un nümero finito, enfonces la gramâtica aumentada es équivalente a una gramâtica 
independiente del contexto: el esquema de réglas podria ser reemplazado con réglas in- 
dividuales independientes del contexto. Pero si hay un nümero infinito de valores, enfonces 
las gramâticas aumentadas pueden representar lenguajes no independientes del contex¬ 
to. Por ejemplo, el lenguaje dependiente del contexto a"b"c n puede ser representado como: 
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S (n)^A(n)B(n)C(n) 

A(l) —» a A(n+l)^aA(n) 

5(1)-» a B(n+1) —» b B(n) 

C(l) —» a C(n+1) —» c C{ri) 


22.5 Interpretacion semântica 


Desde hace un buen rato, hemos examinado solo el anâlisis sintâctico del lenguaje. En 
esta secciôn, nos volcaremos en la semântica: la extracciôn del significado de las de- 
claraciones. En este capitulo estamos utilizando la lôgica de primer orden como 
representaciôn del lenguaje, por tanto la interpretacion semântica es el proceso de aso- 
ciar una expresiôn en LPO con una frase. Intuitivamente, el significado de la frase «el 
wumpus » es la bestia grande y peluda que representamos en lôgica con el término lôgico 
Wumpus^ y el significado de «el wumpus esta muerto» es la frase lôgica Muem(Wumpus x ). 
Esta secciôn harâ esta intuiciôn mas précisa. Comenzaremos con ejemplos simples: una 
régla para describir posiciones en una rejilla: 

FN —> Dîgito Di'gito 

Aumentaremos la régla anadiendo a cada componente un argumento representativo de 
la semântica del componente. Obtenemos 

FN([x,y]) —» Dîgito{x) Di'gito(y) 

Esto significa que una cadena compuesta de un dlgito con la semântica x seguida de otro 
digito con la semântica y forma una FN con semântica [x, y], que es nuestra notaciôn 
para un cuadrado en la rejilla. 

Destaquemos que la semântica de la FN compléta estâ compuesta en su mayor par¬ 
te de las semânticas de las partes componentes. Hemos visto esta idea antes en la se¬ 
mântica composicional: en lôgica, el significado de P a Q se détermina por el signifi¬ 
cado de P, Q y a; en aritmética, el significado de x + y se détermina por el significado 
de x, y y +. La Figura 22.14 muestra como la notaciôn DCG puede usarse para aumen- 
tar una gramâtica para expresiones aritméticas con semântica y la Figura 22.15 mues¬ 
tra el ârbol sintâctico para 3 + (4 -ï 2) de acuerdo con esta gramâtica. La raiz del ârbol 
sintâctico es Exp(5), una expresiôn cuya interpretacion semântica es 5. 


Exp{x) —» Expix j) Operador(op) Exp(x 0 ) {x = Aplicariop, x v x 2 )} 
Expix) —» ( Exp(x )) 

Expix) —* Nûmeroix) 

Nûmeroix) —* Di'gito(x) 

Nûmeroix) —» Nûmeroix t ) D(gitoix 2 ) Expix 2 ) {x = 10 x x l + x 2 ) ) 
Dîgitoix ) —> x {0 ^ x ^ 9} 

Operadorix) ->i {ï£ X]] 


Figura 22.14 Una gramâtica para expresiones aritméticas, aumentada con semântica. Cada 
variable x, représenta la semântica de un componente. Destaquemos el uso de la notaciôn {test ) para 
définir predicados lôgicos que deben ser satisfechos, pero que no son intégrantes. 






920 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


Exp{ 5) 



Figura 22.15 Arbol de anâlisis gramatical con las interpretaciones semânticas para la cadena 
«3 + (4 2)». 


La semântica de un fragmento en espanol 

Ahora estamos preparados para escribir los aumentos semânticos para un fragmento de 
espanol. Comenzaremos determinando qué representaciones semânticas queremos aso- 
ciar con qué frases. Usaremos como ejemplo la frase simple «Juan ama a Maria». La FN 
«Juan» deberia de tener como su interprétation semântica el término logico Juan, y la 
frase como un todo deberia tener como interprétation la frase logica Ama{Juan,Maria). 
Esto parece bastante claro. La parte complicada es la FV «ama a Maria». La interpréta¬ 
tion semântica de esta frase no es ni un término logico ni una frase compléta logica. In- 
tuitivamente, «ama Maria» es una description que deberia o no aplicarse a una persona 
particular. (En este caso se aplica a Juan.) Esto significa que «ama Maria» es un predi- 
cado que, cuando es combinado con un término que représenta una persona (la perso¬ 
na amante), produce una frase logica compléta. Usando la notation A (véase el Aparta- 
do 8.2), podemos representar «ama Maria» como el predicado 

Ax Ama(x, Mary) 

Ahora necesitamos una régla que diga «una FN con semântica obj seguida por una FV 
con semântica rel produce una frase cuya semântica es el resultado de aplicar rel a obj»\ 

S(rel(obj)) — FN(obj) FV(obj) 

La régla nos dice que la interprétation semântica de «Juan ama Maria» es 

( AxAmaQc , Mary))(John), 
que es équivalente a AmaiJuan, Maria). 
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El resto de la semântica se sigue en una forma sencilla a partir de las elecciones que 
hemos hecho anteriormente. Debido a que las FV se representan como predicados, es 
una buena idea ser consistente y representar los verbos también como predicados. El verbo 
«ama» es representado como Xx Xy Ama(x, y), el predicado que, cuando se da el argu¬ 
menta Maria, devuelve el predicado Xx Ama(x, Maria). 

La régla FV —> Verbo FN se aplica al predicado que es la interpretacion semântica 
del verbo al objeto que es la interpretacion semântica de la FN para obtener la interpre¬ 
tacion semântica de la FV compléta. Terminaremos con la gramâtica que se muestra en 
la Figura 22.16 y el ârbol sintâctico que se muestra en la Figura 22.17. 


S{rel{obj)) —» FN(obj) FV(rel) 

FV{rel{obj)) —» Verbo{rel ) FN(obj) 

FN(obj) —» Nombre(obj) 

Nombre{Johri) —> John 
Nombre(Marÿ) —» Mary 
Verbo)/Ix Xy AmaQc, y )) —» ama a 

Figura 22.16 Una gramâtica que puede derivar un ârbol de anâlisis gramatical y una interpreta¬ 
cion semântica como «John ama a Mary» (y otras très oraciones). Cada categorfa es aumentada con 
un ünico argumento representando la semântica. 



S(Ama(John,Mary)) 


FV(kx Ama(x,Mary)) 

FN(John) 

1 

FW(Mary) 

1 

Nombre(John) 

1 

Verbo(ky Xx Ama{x,y )) Nombre(Mary) 

\ \ 

1 

John 

loves Mary 

Figura 22.17 Ârbol de anâlisis gramatical con las interpretaciones semânticas para la cadena «John 
loves Mary» (John ama a Mary). 


Tiempo y forma verbal 

Ahora supongamos que queremos representar la diferencia entre «Juan ama a Maria» y 
«Juan amô a Maria». El inglés (castellano) usa los tiempos verbales (pasado, présente 
y future) para indicar el tiempo relativo de un evento. Una buena elecciôn para repre¬ 
sentar el tiempo de los eventos es la notacion del câlculo de eventos del Apartado 10.3. 
En la notacion de eventos, nuestras dos frases tienen las siguientes interpretaciones: 

e e AmaiJohn, Mary) a Durante(Ahora, e); 
e e Ama{John, Mary) a Después(Ahora, e) 
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Esto sugiere que nuestras dos réglas léxicas para las palabras «ama» y «amo» deberian 
ser estas: 

Verbo(Ax Ay e e Ama(John, Mary) a DuranteiAhora, e)) —> ama; 

Verbo(Ax /.y e e Ama(John, Mary) a Después(Ahora, e)) —> amaba; 

Excepto este cambio, cualquier otra cosa mas de la gramâtica se mantiene igual, lo cual 
es una noticia alentadora; esto sugiere que estamos en la pista correcta si podemos ana- 
dir una complicaciôn como el tiempo de los verbos (aunque tan solo hemos rascado la 
superficie de una gramâtica compléta para el tiempo y tiempo verbal). Con este éxito 
como puesta a punto (calentamiento), estamos ahora preparados para tratar un proble- 
ma de representacion mucho mas complicado. 

Cuantificaciôn 

Consideremos la frase «Cada agente huele un wumpus ». La frase es realmente ambigua; 
el significado preferido es que los agentes podrian estar oliendo diferentes wumpus, pero 
un significado alternative es que hay un ünico wumpus que todo el mundo huele 13 . Las 
dos interpretaciones se pueden representar como sigue: 

Va a e Agentes => 

3w w e Wumpus a 3e e e Hueleia, w) a Durante(Ahora, e); 

3w w e Wumpus Va a e Agentes => 

3e e e Hueleia, w) a Durante(Ahora, e). 

Pospondremos el problema de la ambigüedad y por ahora analizaremos solo la primera 
interpretaciôn. Intentaremos analizarla composicionalmente, partiéndola en las compo- 
nentes FN y FV: 

Cada agente FN(\/a a e Agentes =» F) 

huele un wumpus FV(3w w e Wumpus a 

3e (e e Hueleia, w) a Durante(Ahora, e)) 

Ahora mismo hay dos dificultades. Primera, la semântica de una frase entera parece ser 
la semântica de la FN, con la semântica de la FV llenando la parte F. Esto significa que 
no podemos formar la semântica de la frase rel{obj). Podriamos hacer esto con obj(reI), 
que parece un poco extrano (por lo menos a primera vista). El segundo problema es que 
necesitamos obtener la variable a como un argumento de la relacion Huele. En otras pa¬ 
labras, la semântica de una frase estâ formada mediante la conexion ( plugging ) de la se¬ 
mântica de la FV en el lugar correcto del argumento de la semântica de FV. Parece como 
si necesitâsemos dos composiciones funcionales y promete ser mâs confuso aün. La com- 
plejidad tiene su origen en el hecho de que la estructura semântica es muy diferente de 
la estructura sintâctica. 

Para evitar esta confusion, muchos gramâticos modernos toman un rumbo diferente. 
forma intermedia Ellos definen una forma intermedia entre la sintaxis y la semântica. La forma intermedia 
tiene dos propiedades clave. Primera, es estructuralmente similar a la sintaxis de una frase 


13 


Si esta interpretaciôn parece incorrecta, consideremos «Cada protestante créé en un Dios justo». 
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FORMA CASI-LÔGICA 

TÉRMINO 

CUANTIFICADO 


y por tanto puede ser fâcilmente construida mediante significados composicionales. Se- 
gunda, contiene la suficiente informaciôn para que sea traducida a una frase lôgica de 
primer orden. Debido a que se encuentra entre las formas sintâctica y lôgica, se llama 
forma casi-lôgica 14 . En esta secciôn, usaremos una forma casi-lôgica que incluye todo 
lo de la lôgica de primer orden y es aumentada mediante expresiones lambda y una nueva 
construcciôn, que llamaremos término cuantifîcado. El término cuantificado que es la 
interpretaciôn semântica de «cada agente» se escribe 

[Va a e Agentes] 

Esta parece una sentencia lôgica, pero se usa de la misma forma en la que es usado un 
término lôgico. La interpretaciôn de «Cada agente huele un wumpus» en forma casi-lô¬ 
gica es 

3e (e e Olfatea(\\/a a e Agentes], [3 w w e Wumpus]) a Durante(Ahora, e) 

Para generar formas casi-lôgicas, varias de nuestras réglas permanecen invariables. La 
régla para S todavia créa la semântica de S con rel{obj). Algunas réglas cambian; la régla 
léxica para «a» es 

Artîculo( 3) —»■ a 

y la régla para combinar un articulo con un sustantivo es 

FN([q x sem(x)]) —» Artîculo(q) Sustantivo(sem) 

Esta dice que la semântica de la FN es un término cuantificado, con un cuantificador 
especificado por el articulo, con la nueva variable x, y con una proposiciôn formada me¬ 
diante la aplicaciôn de la semântica del sustantivo a la variable x. Las otras réglas de FN 
son similares. La Figura 22.18 muestra los tipos de semântica y formas ejemplo de cada 
categoria sintâctica bajo el enfoque de la forma casi-lôgica. La Figura 22.19 muestra el 
ârbol sintâctico de «cada agente huele un wumpus» usando este enfoque, y la Figura 22.20 
muestra la gramâtica compléta. 

Ahora necesitamos convertir la forma casi-lôgica en una lôgica de primer orden real 
mediante la conversion de términos cuantificados en términos reales. Esto se hace me¬ 
diante una simple régla: para cada término cuantificado \q x P(x)] dentro de la forma casi- 
lôgica QLF, reemplazar el término cuantificado con x, y reemplazar QLF con 
q x P(x) op QLF, donde op es => cuando q es V y es a cuando q es 3 o 3! Por ejemplo, 
la frase «Cada perro tiene un dia» tiene la forma casi-lôgica: 

3e (e e T/ene([Vd d e Perros], [3 a a e Dîas], Ahora)) 

No especificamos cuâl de los dos términos cuantificados serâ sacado primero, por tanto 
hay realmente dos posibles interpretaciones lôgicas: 

Vc/ d e Perros => 3a a e Dîas a 3e e e Tieneid, a, Ahora)-, 

3 a a e Dîas a Vc/ d e Perros => 3e e e Tiene{d, a, Ahora) 


14 Algunas formas casi-lôgicas tienen una tercera propiedad que pueden sucintamente representar ambi- 
güedades que podrian ser representadas solo en forma lôgica mediante una disyunciôn larga (long). 
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Categoria 

Tipo Semântico 

Ejemplo 

Forma casi-lôgica 

S 

Oracion 

Yo duermo. 

3e e e Duerme(Narrador) 
a Durante(Ahora, e) 

FN 

objeto 

un perro 

[3 <7 Perro(d)] 

FF 

objeto 2 — * oracion 

en [2, 2] 

Àx En(x, [2, 2]) 

OraciônRel 

objeto —> oracion 

eso me ve 

Àx3e e e Ve(x, Narrador ) 
a Durante(Ahora, e) 

FV 

objeto" —» oracion 

me ve 

Xx3e e e Ve(x, Narrador) 
a Durante(Ahora, e) 

Adjetivo 

objeto —> oracion 

mal cliente 

hc MalCliente(x) 

Adverbio 

evento — » oracion 

hoy 

Ae Durante(e, Hoy) 

Artîculo 

cuantificador 

él 

31 

Conjunciôn 

oracion 2 —» oracion 

y 

Ap, q (p a q) 

Dîgito 

objeto 

7 

7 

Sustantivo 

objeto —> oracion 

wumpus 

Ax x e Wumpuses 

Preposiciôn 

objeto 2 —* oracion 

en 

Ax Ay In(x, y) 

Pronombre 

objeto 

yo 

Narrador 

Verbo 

objeto"—* oracion 

corne 

Ay Ax 3e e e Come(x, y) 
a Durante(Ahora , e) 

Figura 22.18 Tabla que muestra el tipo de una forma casi logica expresiôn para cada categoria 

sintâctica. La anotaciôn t —* r dénota una funcion que toma un argumento de tipo t y devuelve un 

resultado de tipo 

r. Por ejemplo, el tipo semântico para Preposiciôn es objeto 2 —> oracion , que sig- 

niftca que la semântica de una preposiciôn 
lôgicos, producirâ una oracion logica. 

es una funcion que, cuando es aplicada a dos objetos 


SCBe eeHuele([\/a Agenteia)]. [3w Wumpus(w )])) 

a Durante(Ahora,e) 


FV(kx 3e ee Huele([\/ a Agente(à)\, [3 w Wumpus(w)])) 

a Durante(Ahora,e ) 


FN([\/a Àgente(a)]) 


FN[3w Wumpus(w)]) 



Verbo(ky Xx 3e ee Huele(x,ÿ) 
a Durante(Ahora,e) 



ArticuloÇti ) Sustantivo(Agente ) 


Artîculo(3 ) SustantivoiWumpus) 


Todo 


agente 


huele 


wumpiis 


Figura 22.19 Arbol de anâlisis gramatical para la oracion «Todo agente huele un wumpus », mos- 
trando tanto la interpretaciones semânticas como la estructura sintâctica. 
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S(rel(obj )) —» FN(obj) FV(rel) 

S{conj(sem l , sem 2 )) —» S(sem^) Conjunciôn(conj) S(sem 2 ) 

FN(sem) —» Pronombre(sem) 

FN(sem) —» Nombre(sem) 

FN([q x sem(x)]) —» Artîculo(q ) Nombre(sem ) 

FW(|y .y o/y a re/(x)]) —» FN(\q a o/y]) FF(rel) 

FN([q a o/y a re/(x)]) —» .F/V([c/ a o/y]) OraciônRel(rel) 
FN([sem v sem 2 ]) —> Di'gito(sem ,) D(gito{sem 2 ) 

FV(sem) —» Verbo(sem) 

FV(rel(obj )) —» FV(reI) FN(obj) 

FV(sem l (sem 2 )) —» FV{sem l ) Adjetivo(sem 2 ) 
FV{sem x (sem 2 )) —> FV(sem [) PP{sem 2 ) 

OraciônRel{sem) —* ese FV(sem) 

FF(Àx rel(x, obj)) —> Preposiciôn(rel) FN(obj) 


Figura 22.20 Una gramâtica con semântica en forma casi-logica. 


La primera dice que cada perro tiene su propio dia, mientras que la segunda dice que 
hay un dia especial que todos los perros comparten. Elegir entre ellas es un trabajo para 
deshacer la ambigüedad. A menudo, el orden de izquierda a derecha de los términos cuan- 
tificados empareja el orden de izquierda a derecha de los cuantificadores, pero otros 
factores entran en juego. La ventaja de la forma casi-logica es que sucintamente repré¬ 
senta todas las posibilidades. La desventaja es que no nos ayuda a elegir entre ellas; para 
ello necesitamos la potencia plena de la desambiguacion empleando toda fuente de 
evidencias. 

Interpretaciôn pragmâtica 

Hemos mostrado cômo un agente puede percibir una cadena de palabras empleando una 
gramâtica para derivar un conjunto de posibles interpretaciones semânticas. Ahora 
hablaremos del problema de la completitud de la interpretaciôn mediante la adiciôn de 
informaciôn dependiente del contexto sobre la situaciôn actual de cada interpretaciôn 
candidata. 

La necesidad mas obvia de informaciôn pragmâtica es en la resoluciôn del signifi- 
referentes cado de referentes, que son frases que hacen referencia directamente a la situaciôn actual. 

Por ejemplo, en la frase «yo estoy en Boston hoy», la interpretaciôn de los referentes 
«yo» y «hoy» dépende de quién déclaré la frase. Presentamos referentes mediante «cons¬ 
tantes» (taies como Hablanté) que realmente son locuaces (esto significa, que depen- 
den de la situaciôn). El oyente que percibe un acto de habla deberfa también percibir qué 
hablanté es y usar esta informaciôn para resolver el referente. Por ejemplo, el oyente 
deberfa saber T((Hablante = Agente B ), Ahora). 
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Un comando tal como «ve a 2 2» implicitamente se refiere al oyente. Mas aün, nues- 
tra gramâtica para S cubre solo frases declarativas. Podemos fâcilmente extenderlas para 
cubrir ôrdenes 15 . 

Una orden se puede formar a partir de una FV, donde el sujeto es implicitamente el 
oyente. Necesitamos distinguir las ôrdenes de las afirmaciones, asi podemos alterar las 
réglas de S para incluir el tipo de acto de habla como parte de la forma casi-lôgica: 

S(Sentencia(Hablante, rel(obj))) —> FN(obj) FV(rel) 
S(Orden(Hab!ante, rel(Oyente))) —> FV(rel) 

Por tanto, la forma casi-lôgica para «Ve a 2 2» es 16 

Orden(3e e e Ir{Oyente, [2, 2])) 

Generaciôn de lenguajes con DCGs 

Desde hace rato nos hemos concentrado en anâlisis sintâctico del lenguaje, no en la ge¬ 
neraciôn del mismo. La generaciôn es un tema de similar riqueza. Elegir la declaraciôn 
correcta para expresar una proposiciôn involucra a muchas de las mismas alternativas 
que la declaraciôn del anâlisis gramatical emplea. 

Recordemos que una DCG es un sistema de programaciôn lôgico que especifica 
restricciones entre una cadena y el anâlisis gramatical de una cadena. Conocemos que 
una definiciôn de la programaciôn lôgica del predicado Append se puede usar tanto para 
decirnos que en Append{[\, 2], [3], x) tenemos x = [1, 2, 3] y que para enumerar los 
valores de x e y tenemos que hacer que Append(x, y, [1, 2, 3]) sea verdad. De la misma 
manera, podemos escribir una definiciôn de S que puede ser usado de dos formas: para 
el anâlisis gramatical, preguntamos S(sem, [Juan, Ama, Maria]) y obtenemos sem = 
Ama{Juan, Maria)', para generar, preguntamos S(Ama(Juan, Maria), words) y obtene¬ 
mos words = [Juan, Ama, Maria], Podemos también comprobar una gramâtica 
preguntando S{sem, words) y obtenemos como respuesta un raudal (flujo) de pares [sem, 
words] que son generados por la gramâtica. 

Este enfoque funciona para las gramâticas simples de este capitulo, pero puede 
haber dificultades en llevarlo a gramâticas mâs grandes. La estrategia de büsqueda em- 
pleada por el motor de inferencia lôgica es importante; las estrategias de büsqueda en 
profundidad pueden avocar en bucles infmitos. Se deben tomar algunas precauciones en 
los detalles precisos de la forma semântica. Podria ser que una determinada gramâtica 
no tuviera manera de expresar la forma lôgica X a Y para algunos valores de X e Y, pero 


15 Para implementar un agente de comunicaciones completo necesitamos también una gramâtica de preguntas. 
Las preguntas estân mâs allâ del alcance de este libro porque imponen una dependencia de gran distancia 
entre componentes. Por ejemplo, en «Whorn did the agent tell you to give the gold to?» la palabra final «to» 
deberia ser analizada sintâcticamente como una FP con la falta de un FN', la falta de FN se autoriza por la 
primera palabra de la frase, «who». Se emplea un sistema completo de aumentos para asegurar que el FN 
ausente se empareja con las palabras autorizadas. 

16 Destacar que la forma casi-lôgica para una orden no incluye el tiempo del evento (por ejemplo, Du- 
ring{Now, e)). Esto es debido a que «go» es realmente la version sin tiempo (no conjugada) de la palabra, 
no la version en tiempo présente. No se puede comunicar la diferencia con «go», pero observen que la for¬ 
ma correcta de una orden es «Be good!» (usando la forma no conjugada «be»), no «Are good!». Para ase¬ 
gurar que se usa la conjugaciôn correcta, podrfamos aumentar las FV con un argumento de conjugaciôn y 
escribir VP(reI, untensed) en el lado derecho de la régla de la orden. 
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pueda expresar Y a X\ esto sugiere que necesitamos una forma de canonicalizar formas 
semânticas, o bien que necesitamos ampliar la rutina de unificacion de modo que X a Y 
se pueda unifie ar con Y a X. 

Los trabajos formales en generaciôn tienden a usar modelos de generacion mas 
complejos que son distintos del anâlisis gramatical y ofrecen mas control sobre qué com- 
ponentes semânticos se expresan. La gramâtica sistémica es un enfoque que hace fâcil 
poner énfasis en las partes mas importantes de la forma semântica. 


22.6 Ambigüedad y desambigüedad 



AMBIGÜEDAD LÉXICA 


AMBIGÜEDAD 

SINTÂCTICA 


AMBIGÜEDAD 

SEMÂNTICA 


En algunos casos, los oyentes son conscientemente avisados de la ambigüedad en una 
declaraciôn. Aqui hay varios ejemplos tomados de los titulares de los periodicos: 

Squad helps dog bite victim. 

Helicopter powered by human flies. 

Once sagging cloth diaper industry saved by full dumps. 

Portable toilet bombed; police bave nothing to go no. 

British left waffles on Falkland Islands. 

Teacher strikes idle kids. 

Milk drinkers are turning to powder. 

Drunkgets nine months in violin case 11 . 

Pero la mayoria del tiempo el lenguaje que oimos parece no ambiguo. Asi, cuando los 
investigadores comenzaron a usar por primera vez computadores para analizar el len¬ 
guaje en los anos 60, quedaron bastante sorprendidos al aprender que casi toda decla¬ 
raciôn es altamente ambigua, incluso cuando las interpretaciones alternativas no de- 
berîan ser apreciables a un orador nativo. Un sistema con una amplia gramâtica y léxico 
podria encontrar miles de interpretaciones para una frase perfectamente ordinaria. Con- 
sideremos «the batter hit the bail», que parece tener una interpretacion no ambigua en 
la cual el jugador de baseball golpea una bola. Pero obtenemos una interpretacion dife- 
rente si la frase previa es «The mad scientist unleashed a tidal wave of cake mix towards 
the ballroom». Este ejemplo se basa en una ambigüedad léxica, en la cual una palabra 
tiene mas de un significado. La ambigüedad léxica es bastante comün; «back» puede ser 
un adverbio (go back), un adjetivo (back door), un sustantivo (the back of the room ) o 
un verbo (back up your files). «Jack» puede ser un nombre, un sustantivo (un juego de 
cartas, una pieza de juego de métal con seis puntas, una bandera nâutica, un pez, un asno 
macho, un bolsillo, o un dispositivo para levantar objetos pesados), o un verbo (to jack 
up a car, cazar con una linterna, o golpear una bola con dureza). 

La ambigüedad sintâctica (también conocida como ambigüedad estructural) pue¬ 
de ocurrir con o sin ambigüedad léxica. Por ejemplo, la cadena «I smelled a wumpus in 2,2» 
tiene dos anâlisis: uno donde la frase preposicional «in 2,2» modifica un sustantivo y otra 
donde modifica el verbo. La ambigüedad sintâctica avoca a una ambigüedad semântica, 


17 Nota del traductor: Frases del original en inglés que debido a su ambigüedad no tienen traducciôn posi- 
ble en espanol. Como ejemplo en espanol consideremos la frase «Perd! los gemelos en el parque», hace re- 
ferencia a perder los gemelos ( nifios ) en el parque o los gemelos ( broches ) de la camisa. 
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porque un anâlisis significa que el wwnpus esta en 2,2 y el otro significa que un tufo esta 
en 2,2. En este caso, quedarse con la interpretaciôn incorrecta podrfa ser un error mortal. 

La ambigüedad semântica puede aparecer incluso en frases sin ambigüedad léxica 
o sintâctica. Por ejemplo la frase nominal «cat person» puede ser alguien a quien le gus- 
ten los gatos o el lider de la pelicula « Attack ofthe Cat People». Una «coast road» pue¬ 
de ser una carretera que siga la costa o alguien que se dirige hacia ella. 

Finalmente. Hay una ambigüedad entre significados literales y figurados. Las figu¬ 
ras del habla son importantes en poesia, pero son sorprendentemente comunes también 
metonimia en el habla cotidiana. Una metonimia es una figura del habla en la cual se emplea un 

objeto para sustituir a otro objeto. Cuando oimos «Chrysler anuncio otro modelo», no 
lo interpretamos como que la compahia puede hablar; mas bien entendemos que un por- 
tavoz representando la compania hizo el anuncio. La metonimia es comün y es a me- 
nudo interpretada inconscientemente por los oyentes humanos. Desafortunadamente, 
nuestra gramâtica tal y como es escrita no es tan fâcil. Para manejar la semântica de la 
metonimia adecuadamente, necesitamos introducir un nuevo nivel compléta de ambi¬ 
güedad. Lo realizamos introduciendo dos objetos para la interpretaciôn semântica de cada 
frase en la frase en la oraciôn: uno para el objeto al que la frase literalmente hace refe- 
rencia (Chrysler) y otro para la referencia metommica (el portavoz). Enfonces podemos 
decir que hay una relaciôn entre los dos. En nuestra gramâtica actual, «Chrysler anun- 
ciô» obtiene la interpretaciôn como 

3x, e x = Chrysler a e e Anuncios{x) a DespuésiAhora, e) 

Necesitamos cambiarlo a 

3 m, x, e x = Chrysler a e e AnunciosQn ) a Después(Ahora, e) a Metonimia(m, x) 

Esta dice que hay una entidad x que es igual a Chrysler, y otra entidad m que hizo el anun¬ 
cio, y aquella que dice que las dos estân en una relaciôn metommica. El siguiente paso 
es définir qué clases de relaciones metommicas pueden darse. El caso mâs simple es cuan¬ 
do no hay metonimia después de todo (el objeto literal x y el objeto metommico m son 
idénticos): 

Vm, x {m = x) => Metonimia(m, x) 

Para el ejemplo de Chrysler, una generalizaciôn razonable es que se puede usar una or- 
ganizaciôn para mantener un représentante de dicha organizaciôn. 

Vwî, x x e Organizaciones a Representante(m, x) => Metonimia{m, x) 

Otras metonimias incluyen el autor para el trabajo (Yo leo Shakespeare) o mâs genéri- 
camente el fabricante del producto (Yo conduzco un Honda) y la parte para el conjun- 
to (El Calcetin Rojo necesita un hrazo fuerte). Algunos ejemplos de metonimia, taies 
como «El sândwich de jamôn en la Tabla 4 quiere otra cerveza», son mâs novedosos y 
son interpretados segün la situaciôn. 

Las réglas que hemos esbozado aqui nos permiten construir una explicaciôn para 
«Chrysler anuncio un nuevo modelo», pero la explicaciôn no sigue una deducciôn lôgi- 
ca. Necesitamos usar el razonamiento probabilistico o no monotônico para aparecer con 
explicaciones candidatas. 
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Una metâfora es una figura del habla en la cual se emplea una frase con un signifi- 
cado literal para sugerir un significado diferente mediante una analogia. La mayorfa de 
la gente piensa en las metâforas como una herramienta empleada por los poetas que no 
toman un gran papel en el texto diario. Sin embargo, una cierta cantidad de metâforas 
bâsicas son tan comunes que no las reconocemos como taies. Una metâfora de dicho tipo 
es la idea en la que «mâs es subir» ( more is up). Esta metâfora nos permite decir que los 
precios han crecido, escalado, o subir como un cohete, que la temperatura ha bajado o 
caido, que una confidencia ha caido en picado o que una celebridad popular ha saltado 
o ascendido. 

Hay dos maneras de acometer metâforas como esta. Una es recopilar todo el cono- 
cimiento de la metâfora en el léxico, para a nadir nuevos significados de las palabras «cre¬ 
cido», «caer», «escalar» y demâs, que las describe como manejo de cantidades de cual- 
quier escala en vez de tan solo altitud. Este enfoque es suficiente para gran cantidad de 
aplicaciones, pero no capta el carâcter generativo de la metâfora que permite a los hu- 
manos usar nuevas instancias taies como «nosedive» o «blasting through the roof» sin 
sentimiento de no comprender. El segundo enfoque es incluir conocimiento explicita de 
las metâforas comunes y usarlas para interpretar nuevos usos a medida que son leidos. 
Por ejemplo, supongamos que el sistema conoce la metâfora «more is up». Esta es, co¬ 
noce que dichas expresiones lôgicas que se refieren a un punto en una escala vertical se 
pueden interpretar como pertenecientes a puntos correspondientes a una escala de can¬ 
tidad. Enfonces la expresiôn «las ventas son altas» deberia tener una interpretaciôn li¬ 
teral a través de las lineas de Altitud ( ventas, altas), que deberia ser interpretado meta- 
fôricamente como Cantidad ( ventas, muchas). 

Desambiguaciôn 

Como dijimos antes, la desambiguaciôn es un problema de diagnosis. La intenciôn del 
hablante para comunicar es una causa no observada de las palabras en la declaraciôn, y 
el trabajo del oyente es trabajar hacia atrâs a partir de las palabras y a partir del conoci¬ 
miento de la situacion para recuperar lo mâs similarmente la intenciôn del hablante 

argmax Probabilidad(intenciôn \ palabras, situacion), 

intenciôn 

donde la probabilidad puede ser bien una probabilidad o cualquier medida numérica de 
preferencia. Se necesita algün orden de preferencia debido a que la régla de interpreta¬ 
ciôn sintâctica y semântica en si misma no puede identificar a una ünica interpretaciôn 
correcta de una frase u oraciôn. Por tanto dividimos el trabajo: la interpretaciôn sintâc¬ 
tica y semântica es responsable de la enumeraciôn de un conjunto de interpretaciones 
candidatas, y el proceso de desambiguaciôn elige la mejor. 

Destaquemos que hemos hablado sobre la intenciôn del acto del habla, no la propo- 
siciôn actual que el hablante estâ proclamando. Por ejemplo, después de oir a un politi- 
co decir, «yo no soy un delincuente», podriamos asignarle una probabilidad de solo el 
50 por ciento a la proposiciôn que dice que el politico no es un criminal, y un 99,999 
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ASOCIACIÔN 

DERECHA 


22.7 


DISCURSO 


por ciento a la proposiciôn que dice que el hablante no esta enganchado al shepherd’s 
staff. Aun asi, debemos asignar una probabilidad mas alta a la interpretacion 

Aserciôn(Hablante, -> (Hablante e Criminelles )) 
porque es mas fâcil pensarlo que decirlo. 

Consideremos de nuevo el ejemplo ambiguo «yo olfateé un wumpus en 2,2». Una 
la preferencia heuristica es la régla de la asociaciôn por la derecha, que dice que cuando 
sea el momento de decidir dônde colocamos la FP «en 2,2» en el ârbol de anâlisis gra- 
matical, deberiamos preferir asociarla al componente existente de mas hacia la derecha, 
que en este caso es la FN «un wumpus». De acuerdo, esto es solo una heuristica; para la 
oraciôn «yo olfateé un wumpus con mi nariz», la heuristica deberia ser sopesada por el 
hecho en el que rechazamos la FN «un wumpus con mi nariz». 

La desambiguaciôn se hace posible mediante la combinaciôn de la evidencia, usan- 
do todas las técnicas para la representaciôn del conocimiento y el razonamiento no cer- 
tero que hemos visto a lo largo de este libro. 

Podemos partir el conocimiento en cuatro modelos: 

1. El modelo del mundo: la probabilidad de que una proposiciôn ocurra en el 
mundo. 

2. El modelo mental: la probabilidad de que el hablante forme la intenciôn de 
comunicar un cierto hecho al oyente, tal como ocurriô. Este enfoque combina 
modelos de lo que el hablante créé y lo que el hablante créé que el oyente créé, 
etcétera. 

3. El modelo del lenguaje: la probabilidad de que una cierta cadena de palabras 
sea elegida, dado que el hablante tiene la intenciôn de comunicar un cierto 
hecho. Los modelos CFG y DCG planteados en este capitulo tienen un modelo 
Booleano de probabilidad: bien una cadena puede tener una cierta interpretacion 
o no tenerla. En el prôximo capitulo veremos una version probabilistica de CFG 
que proporciona un modelo de lenguaje mas enriquecido para la desambi- 
guaciôn. 

4. El modelo acustico: la probabilidad de que una secuencia particular de sonido 
sea generada, dada porque el hablante ha elegido una cadena de palabras deter- 
minada. El Apartado 15.6 cubria el reconocimiento del habla. 


Comprension del discurso 


Un discurso es cualquier cadena del lenguaje —usualmente una que tiene mas de una 
frase de longitud. Libres de texto, novelas, informes metereolôgicos y conversaciones 
son discursos. Desde hace rato hemos ignorado ampliamente los problemas del discur¬ 
so, y hemos preferido diseccionar el lenguaje en oraciones individuales que pueden ser 
estudiadas in vitro. Esta secciôn estudia las oraciones en su habitat nativo. Buscaremos 
dos subproblemas particulares: la resoluciôn por referencia y la coherencia. 
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RESOLUCIÔN POR 
REFERENCIA 


Resoluciôn por referencia 

La resoluciôn por referencia es la interpretaciôn de un pronombre o una frase nomi- 
nativa definitiva que hace referencia a un objeto en el mundo 18 . La resoluciôn se basa en 
el conocimiento del mundo en las partes previas del discurso. Consideremos el pasaje 

«Juan paré al camarero. El pidiô un sandwich de jamôn». 

Para entender que «él» en la segunda oraciôn se refiere a Juan, necesitamos haber en- 
tendido que en la primera oraciôn menciona dos personas y que Juan esta ejerciendo el 
papel de cliente y por ello es capaz de pedir mientras que el camarero no lo es. Usual- 
mente, la resoluciôn por referencia es un problema de seleccionar una referencia de una 
lista de candidatas, pero a veces implica la creaciôn de nuevas candidatas. Considere¬ 
mos la siguiente oraciôn: 

«Después de que Juan se declarase a Marsha, ellos encontraron un predicador y 
se casaron. Para la luna de miel ellos se fueron a Hawai». 

Aqui, la frase nominativa «la luna de miel» se refiere a algo que es aludido implicita- 
mente solo por el verbo «casados». El pronombre «ellos» se refiere a un grupo que no 
fue explicitamente mencionado antes: Juan y Marsha (pero no el predicador). 

Elegir la mejor referencia es un proceso de desambiguaciôn que implica la combi- 
naciôn de una variedad de informaciôn sintética, semântica y pragmâtica. Algunas pis¬ 
tas estân en la forma de las restricciones. Por ejemplo, los pronombres deben concordar 
en género y numéro con sus precedentes: «él» puede hacer referencia a Juan, pero no a 
Marsha; «ellos» se pueden referir a un grupo, pero no a una ünica persona. Los pro¬ 
nombres también deben obedecer restricciones sintâcticas por reflexividad. Por ejem¬ 
plo, en «él lo vio en el espejo» los dos pronombres deben referirse a personas diferen- 
tes, mientras que en «él se vio a si mismo» se deben referir a la misma persona. Hay 
también restricciones para la consistencia semântica. En «él se lo comiô», el pronom¬ 
bre «él» debe referirse a algo que corne y «lo» a algo que puede ser comido. 

Algunas pistas son preferencias que no siempre se mantienen. Por ejemplo, cuando 
oraciones adyacentes tienen una estructura paralela, es preferible para referencia pro¬ 
nominal seguir dicha estructura. Por tanto, en 

Marsha volô a San Francisco desde Nueva York. Juan volô alli desde Boston. 

preferimos para «alli» referirnos a San Francisco porque sigue las mismas réglas sin¬ 
tâcticas. Ausentes a una estructura paralela, hay una preferencia para los sujetos por en- 
cima de los objetos como precedentes. Asi, en 

Marsha le dio a Sally la asignaciôn de las tareas de casa. Entonces ella se fue. 

«Marsha», el sujeto de la primera frase, es el antecedente preferido para «ella». Otra pre¬ 
ferencia es para la entidad que ha sido discutida mâs prominentemente. Consideremos 
aisladamente el par de oraciones 

Dana dejô caer el vaso sobre el plato. Este se rompiô. 

18 En lingüîstica, referenciar algo que ya ha sido introducido se llama referencia anafôrica. Referenciar algo 
que todavîa tiene que ser introducido se llama referencia catafôrica, como en el caso del pronombre «él» en 
«cuando él gano su primer torneo, los Tigres tenian 20». 
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RELACIONES DE 
COHERENCIA 


plantea un problema: no esta claro si bien el vaso o el plato es el referente de «Este». 
Pero en un contexto mas grande la ambigüedad es resuelta: 

Dana tranquilamente encontre el vaso azul. El vaso habia sido un regalo de un 
amigo intimo. Desafortunadamente, un dia mientras estaba sentada en la mesa, 
Dana dejo caer el vaso sobre el plato. Este se rompio. 

Aqui, el vaso es el foco de atencion y por ello es el referente preferido. 

Han sido disenados una variedad de algoritmos de resoluciôn por referencia. Uno 
de los primeros (Hobbs, 1998) es destacable porque expérimenta un grado de verifica- 
ciôn estadistica que era inusual para la época. Usando très génères diferentes de texto, 
Hobbs informé de una eficacia del 92 por ciento. Esto asumia que un anâlisis gramati- 
cal correcto era generado por un analizador gramatical; sin tener uno disponible, Hobbs 
construyo los analizadores gramaticales a mano. El algoritmo de Hobbs funciono como 
investigaciôn: éste buscaba oraciones comenzando desde la oracion actual y yendo ha- 
cia atrâs. Esta técnica asegura que los candidatos mas recientes serân considerados en 
primer lugar. Dentro de una frase busca primero en amplitud, de izquierda a derecha. Esto 
asegura que los sujetos serân considerados antes que los objetos. El algoritmo elige el 
primer candidado que satisface las restricciones perfiladas. 


La estructura de un discurso coherente 

Abra 10 paginas al azar de este libre, y copie la primera oracion de cada pagina. El 
resultado esta comprometido por ser incohérente. Similarmente, si elige un pasaje de 10 
oraciones cohérentes y permuta las oraciones, el resultado es incohérente. Esto demuestra 
que las oraciones en el discurso del lenguaje natural son bastante distintas de las ora¬ 
ciones en logica. En logica Referimos las oraciones A,ByC como base de conocimiento, 
en cualquier orden, terminamos con la conjunciôn A a B a C. En el lenguaje natural, el 
orden de las oraciones importa; consideremos la diferencia entre «Avanza dos bloques. 
Gira a la derecha» y «Gira a la derecha. Avanza dos bloques». 

Un discurso tiene una estructura superior al nivel de una oracion. Podemos exami¬ 
nai - esta estructura con la ayuda de una gramâtica del discurso: 

Segmento(x ) —* S(x) 

Segmento(RelaciônCoherencia(x, y)) —* Segmento(x ) Segmento(y). 

Esta gramâtica dice que un discurso estâ compuesto de segmentos, donde cada segmento 
es bien una oracion o un grupo de oraciones y donde los segmentos se unen mediante 
relaciones de coherencia. En el texto «Avanza dos bloques. Gira a la derecha», la re- 
lacion de coherencia es que la primera oracion hace posible la segunda: el oyente debe- 
ria girar a la derecha después de viajar dos bloques. Diferentes investigadores han pro- 
puesto diferentes inventarios de relaciones de coherencia; la Figura 22.21 enumera un 
conjunto representativo. Consideremos la siguiente historia: 

(1) Algo divertido ocurrio ayer. 

(2) Juan fue a un restaurante de lujo. 

(3) El pidio pato. 
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• Habilitar o causar: Sj proporciona un cambio de estado (que puede ser impifcito) que causa o 
habilita S 2 . Ejemplo: «yo sali. Conduje al colegio». (Salir habilita el sentido impifcito de con- 
ducir un coche). 

• Explicaciôn: La inversa de la habilitacion: S 2 causa o habilita a .S’, y por tanto es una explica¬ 
tion para ella. Ejemplo: «Era tarde para la escuela. Me dormi». 

• Figura subyacente: S l describe una asignacion para S,. Ejemplo: «Era una noche oscura y tor- 
mentosa. Resto de la historia». 

• Evaluaciôn: A partir de S 2 se infiere que S, es parte del plan del hablante para ejecutar el seg- 
mento como un acto del habla. Ejemplo: «Algo divertido ocurrio. Resto de la historia». 

• Ejemplificaciôn: S 2 es un ejemplo del principio general en .S’,. Ejemplo: «Este algoritmo invierte 
una lista. La entrada [A, B, C] se transforma en [C, B, A], 

• Generalizacion: Sj es un ejemplo del principio general en S 2 . Ejemplo: «[A, B, C] se mapea a 
[C, B, A], En general, el algoritmo invierte una lista». 

• Expectativa incumplida: Se infiere ~<P a partir de S 2 , negando la inferencia normal de P a par¬ 
tir de Sj. Ejemplo: «Este artfeulo es flojo. Por otro lado, es interesante». 


Figura 22.21 Una lista de relaciones de coherencia, tomadas de Hobbs (1990). Cada relation se 
mantiene entre dos segmentos adyacentes de texto, S 1 y S 2 . 


(4) La factura alcanzô los 50 dôlares. 

(5) Juan tuvo un trauma cuando se percatô de que no ténia dinero. 

(6) El habia dejado su billetera en casa. 

(7) El camarero dijo que podia pagar mas tarde. 

(8) El estaba muy avergonzado por su olvido. 


CENTRADOS EN LOS 
ESPACIOS 


Aqui, la oracion (1) mantiene la relacion de Evaluaciôn en el resto del discurso; 
(1) es el metacomentario del hablante en el discurso. La oracion (2) habilita la (3), y jun- 
tas el par (2-3) causan la (4), con el estado intermedio implicito en el que Juan comiô el 
pato. Ahora (2-4) sirven como base para el resto del discurso. La oracion (6) es una 
explicaciôn de la (5) y (5-6) permiten la (7). Hay que darse cuenta de que es una Habi¬ 
litation y no una Causa, porque el camarero podria haber tenido una reacciôn diferen- 
te. Juntas, las (5-7) causan la (8). El Ejercicio 22.13 pide dibujar un ârbol de anâlisis 
gramatical para este discurso. 

Las relaciones de coherencia sirven para unir un discurso. Estas guian al hablante 
en decidir qué decir y qué dejar implicito, y éstas guian al oyente en la recuperaciôn de 
la intenciôn del hablante. Las relaciones de coherencia pueden servir como un filtro en 
la ambigüedad de las oraciones: individualmente, las oraciones podrfan ser ambiguas, 
pero la mayoria de estas interpretaciones ambiguas no se ajustan a la vez en un discur¬ 
so coherente. 

Desde hace tiempo hemos buscado una resoluciôn de la referencia y una estructura 
del discurso de forma separada. Pero las dos estân realmente entrelazadas. La teorfa de 
Grosz y Sidner (1986), por ejemplo, explica que dônde se dirige la atenciôn del hablante 
y del oyente durante un discurso. Su teoria incluye una pila descendente de los contex¬ 
tes centrados en los espacios. Ciertas declaraciones causan que el foco de atenciôn se 
desplace mediante la apilaciôn o desapilaciôn de elementos de la pila. Por ejemplo, en 
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22.8 


INDUCCION 

GRAMATICAL 


la historia del restaurante, la oraciôn «Juan fue a un restaurante de lujo» apila un nuevo 
foco en la pila. Dentro de dicho foco, el hablante puede usar una FN definitiva para re- 
ferirse «al camarero» (en vez de «un camarero»). Si la historia continuaba con «Juan fue 
a casa», entonces el espacio de atenciôn deberia ser desapilado de la pila y el discurso 
no podria nunca mas referirse al camarero con «el camarero» o «él». 


Induccion gramatical 


La induccion gramatical es la tarea de aprender una gramâtica a partir de datos. Ob- 
viamente es una tarea a intentar, dado que esta probado que es bastante dificil construir 
una gramâtica a mano y que billones de declaraciones ejemplo estân disponibles gratui- 
tamente en internet. Es una tarea dificil porque el espacio de las posibles gramâticas es 
infinito y porque verificar que una gramâtica dada généra un conjunto de oraciones es 
caro computacionalmente. 

Un modelo interesante es el sistema Sequitur (Nevill-Manning y Witten, 1997). No 
requiere entradas excepto un texto sencillo (el cual no necesita ser predividido en ora¬ 
ciones). Este produce una gramâtica de una forma muy especializada: una gramâtica que 
généra solo una ünica cadena, particularmente, el texto original. Otra manera de verlo 
es que Sequitur aprende la suficiente gramâtica para analizar gramaticalmente el tex¬ 
to. Aqui estâ entrecorchetado lo que él descubre para una oraciôn dentro de un texto mâs 
largo de historias de noticias: 

[La mayoria de las labores][sentimiento[[deben'a aün][favor de]abolicion]][[de[la Casa]][de lores]] 

Ha elegido correctamente los componentes taies como la FP «de la casa de los lores», 
aunque también va contra el anâlisis tradicional, por ejemplo, agmpar «el» con el ver- 
bo precedente mâs que con el siguiente sustantivo. 

Sequitur se basa en la idea de que una buena gramâtica es una gramâtica compac¬ 
ta. En particular, ella impone las dos siguientes restricciones: (1) Ningün par de simbo- 
los adyacentes deberia aparecer mâs de una vez en la gramâtica. Si el par de simbolos 
A B aparece en la parte derecha de varias réglas, entonces deberiamos reemplazar el par 
con un nuevo no terminal que llamaremos C y anadir la régla C —» AB. (2) Cada régla 
debe ser usada al menos dos veces. Si un no terminal C aparece solamente una vez en 
la gramâtica, entonces deberemos eliminar la régla para C y reemplazar su ünico uso con 
la régla del lado derecho. Estas dos restricciones se aplican en una büsqueda voraz que 
examina el texto de entrada de izquierda a derecha, incrementalmente construyendo una 
gramâtica a medida que avanza, e imponiendo las restricciones tan pronto como es po- 
sible. La Figura 22.22 muestra el algoritmo en funcionamiento sobre el texto de entra¬ 
da « abcdbcabcd». El algoritmo récupéra una gramâtica compacta ôptima para el texto. 

En el siguiente capitulo, veremos otros algoritmos de induccion gramatical que fun- 
cionan con gramâticas independientes del contexto probabilisticas. Pero ahora volvemos 
al problema de aprender una gramâtica que es aumentada con semântica. Ya que una gra¬ 
mâtica aumentada es un programa lôgico clausal de Horn, son adecuadas las técnicas 
de programaciôn lôgica inductiva. Chill (Zelle y Mooney, 1996) es un programa de pro- 
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Entrada 

Gramâtica 

Comentarios 

1 a 

S —> a 


2 ab 

S^ab 


3 abc 

S —> abc 


4 abcd 

S —> abcd 


5 abcdb 

S —» abcdb 


6 abcdbc 

S —> abcdbc 

S —» aAdA; A^bc 

bc se repite 

7 abcdbca 

S —* aAdAa; A —» bc 


8 abcdbcab 

S —> aAdAab; A^>bc 


9 abcdbcabc 

S —> aAdAabc; A^> bc 

S —* aAclAaA\ A —» bc 

S —* BdAB ; A —» bc\ B —» aA 

bc se repite 
aA se repite 

10 abcdbcabcd 

S —> BdABd\ A —* bc, B —» aA 

S -> CAC; A -» bc; B -> aA; C -> Bd 

S —> CAC; A —» bc, C —» aAd 

Bd se repite 

B solo una vez 

Figura 22.22 Una traza de Sequitur introduciendo una gramâtica para el texto de entrada 
«abcdbcabcd». Comenzamos con una régla para S y anadimos cada slmbolo al final de esta régla 
en orden. Tras anadir el sexto simbolo, tenemos la primera ocurrencia de un par repetido: bc. Por 
tanto reemplazamos ambas ocurrencias de bc con el nuevo no terminal A y anadimos la régla A —■* 
bc. Después de anadir très slmbolos mâs, el noveno provoca otra repeticion del bc, por tanto de nue¬ 
vo lo reemplazamos con A. Esto nos conduce a dos ocurrencias de aA, por tanto las reemplazamos 
con un nuevo no terminal B. Después de anadir el décimo y ültimo simbolo terminal obtenemos 
las dos ocurrencias de Bd, por tanto las reemplazamos con el nuevo no terminal C. Pero ahora B 
aparece solo una vez, en el lado derecho de la régla C, por tanto reemplazamos B con su expan¬ 
sion, aA. 


gramaciôn logica inductiva (ILP) que aprende una gramâtica de un analizador gramati- 
cal especializado para dicha gramâtica a partir de ejemplos. El dominio objetivo son con¬ 
sultas en la base de datos en lenguaje natural. Los ejemplos de entrenamiento consisten 
en pares de cadenas de palabras y sus correspondientes preguntas, por ejemplo: 

/ ; Cuâi es la capital del estado con la poblacion mas grande? 

Respuesta (c, Capitales, c ) a Mâsgrandeip , Estado(s) a Pob\aciôn{s, p))) 

La tarea de Chili es aprender un predicado AnâlisisGramaticalipalabras, pregunta ) que 
sea consistente con los ejemplos y, de manera optimista, generalice de forma adecuada 
los otros ejemplos. La aplicacion de ILP directamente en el aprendizaje de este predica¬ 
do acaba en un pobre rendimiento: el analizador gramatical inducido tiene solo sobre el 
20 por ciento de précision. Afortunadamente, los aprendices ILP pueden mejorar mediante 
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la adiciôn de conocimientos. En este caso la mayorfa del predicado AnâlisisGramatical 
estaba definido como un programa lôgico, y la tarea de Chill fue reducida a la inducciôn 
de las réglas de control que guian al analizador gramatical para seleccionar un anâlisis 
gramatical sobre otros. Con este conocimiento adicional subyacente, Chill alcanza una 
précision del 70 al 80 por ciento sobre varias tareas de interrogaciôn de bases de datos. 


22.9 Resumen 


La comprensiôn del lenguaje natural es uno de los subcampos mas importantes de la IA. 
Se perfila sobre ideas de la filosofîa lingüistica, asi como sobre técnicas de representaciôn 
y razonamiento del conocimiento lôgico y probabilistico. Al contrario que otras areas 
de la IA, la comprensiôn del lenguaje natural necesita una investigaciôn emprrica del com- 
portamiento actual humano, que se vuelve cada vez mas complejo e interesante. 

• Los agentes envian seriales a los demâs para alcanzar cierto propôsito: para in- 
formar, para avisar, para solicitar ayuda, para compartir conocimiento, o para pro- 
meter algo. Enviar una senal en este medio se llama un acto de habla. Por ülti- 
mo, todos los actos de habla son un intento de conseguir que otro agente que créa 
algo o haga algo. 

• El lenguaje esta formado de signos convencionales que son un convenio de sig- 
nificados. Muchos animales usan signos en este sentido. Los humanos parecen ser 
los ünicos animales que usan la gramâtica para producir una variedad no limita- 
da de mensajes estructurados. 

• La comunicaciôn implica très pasos con el hablante: la intenciôn de convenir una 
idea, la generaciôn mental de las palabras, y su sintesis fïsica. El oyente enfonces 
tiene cuatro pasos: percepciôn, anâlisis, desambiguaciôn, e incorporaciôn del sig- 
nificado. Todo uso del lenguaje es situado, en el sentido de que el significado de 
una declaraciôn puede depender de la situaciôn en la cual se produce. 

• La teorfa del lenguaje formai y las gramâticas con estructuras de frase (y en par- 
ticular, gramâticas independientes del contexto) son herramientas utiles para 
manejar algunos aspectos del lenguaje natural. 

• Las oraciones en un lenguaje independiente del contexto pueden ser analizadas gra- 
maticalmente en un tiempo 0(n 3 ) mediante un analizador gramatical grâfico. 

• Es conveniente aumentar una gramâtica para manejar problemas taies como el 
sujeto (concordancia de verbo y caso pronominal). La gramâtica causal defini- 
da (DLG) es un formalismo que permite aumentaciones. Con DLG, la interpreta- 
ciôn semântica y de anâlisis gramatical (e incluso la generaciôn) se puede reali- 
zar usando inferencia lôgica. 

• La interpretaciôn semântica puede ser también manejada con una gramâtica au- 
mentada. Una forma casi-lôgica puede ser intermediario ütil entre ârboles sintâc- 
ticos y la semântica. 

• La ambigüedad es un problema muy importante en la comprensiôn del lenguaje 
natural; la mayoria de las oraciones tienen varias posibles interpretaciones, pero 



LA COMUNICACIÔN 937 


usualmente solo una es apropiada. La desambiguaciôn subyace en el conocimiento 
del mundo, de la situaciôn actual, y del uso del lenguaje. 

• La mayoria del lenguaje existe en un contexto de mültiples oraciones, no en una 
ünica. El discurso es el estudio de los textos conectados. Vimos como resolver las 
referencias pronominales a través de oraciones y como las oraciones se unen en 
segmentas cohérentes. 

• Inducciôn gramatical. La inducciôn gramatical puede aprender una gramâtica a 
partir de ejemplos, aunque hay limitaciones en como de bien la gramâtica gene- 
ralizarâ. 



SEMIÔTICA 


Notas bibliogrâficas e histôricas 

El estudio de signos y sûnbolos como elementos del lenguaje fue denominado semiôtica 
por John Locke (1690), aunque no fue desarrollado hasta el siglo xx (Peirce, 1902; de 
Saussure, 1993). Textos revisados recientemente incluyen Eco's (1979) y Cobley’s (1997). 

La idea del lenguaje como accion proviene 20th-century lingüistico orientada la fi- 
losoffa (Wittgenstein, 1953; Grice, 1957; Austin, 1962) y particularmente del libro Spe¬ 
ech Acts (Searle, 1969). Un precursor de la idea actos de discurso fue Protagora’s (s. 430 
a.C.) que identificô cuatro tipos de sentencias: peticiôn, pregunta, respuesta y prescrip- 
ciôn. Cohen y Perrault (1979) sugirieron un modelo basado en piano de speech acts. Wi- 
lensky (1983), estudio conectar el lenguaje a la accion utilizando el reconocimiento del 
plan para comprender las historias. Cohen, Morgan y Pollack (1990) recogen un traba- 
jo mas reciente en esta area. 

Al igual que las redes semânticas, las gramâticas de contexto libre (también co- 
nocidas como gramâticas de estructura de frases) son una reinvenciôn de una técnica 
utilizada inicialmente por los ancianos gramatistas indios (especialmente Panini, s. 350 
a.C.) studying Shastric Sanskrit (Ingerman, 1967). Fueron reinventadas por Noam 
Chomsky (1956) para el anâlisis de la sintaxis del inglés e independientemente por John 
Backus para el anâlisis de la sintaxis del Algol-58. La notaciôn de Backus (Backus, 1996) 
ampliada por Naur (1963) es ahora calificada con la «N» en BNF, que originalmente se 
conocfa por «Forma Normal Backus». Knuth (1968) definiô una clase de gramâtica 11a- 
mada gramâtica aumentada del atributo que es ütil para los lenguajes de programaciôn. 
Las gramâticas clausales definidas fueron introducidas por Colmerauer (1975) y des- 
arrolladas y popularizadas por Pereira y Warren (1980). El lenguaje de programaciôn Pro¬ 
log fue inventado por Alain Colmerauer especfficamente para el problema del empare- 
jamiento del lenguaje francés. Colmerauer introdujo realmente un formalismo llamado 
gramâtica de la metamorfosis que fue mâs allâ de las clâusulas definidas, pero las DCG 
le siguieron al poco tiempo. 

Ha habido muchas tentativas de escribir gramâticas formatas de lenguajes naturales, 
en lingtustica «pura» y en lingüistica de cômputo. Las gramâticas orientadas hacia la mâ- 
quina incluyen aquellos desarrollados en el Linguistic String Project en la Universidad 
de Nueva York (Sager, 1981) y el proyecto XTAG en la Universidad de Pennsylvania 
(Doran et al, 1994). Un buen ejemplo de un sistema DCG modemo es el Core Langua- 
ge Engine. Hay varias gramâticas comprensivas pero informales del inglés (Jespersen, 
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1965; Quirk et al., 1985; McCawley, 1988; Huddleston y Pullum, 2002). Los buenos li¬ 
bres de textos en lingüistica incluyen la introducciôn de Sag y Wasow (1999) a los tex¬ 
tes de sintaxis y semântica de Chierchia y de McConnell-Ginet (1990) y los de Heim y 
Kratzer (1998). El texto de McCawley (1993) se concentra en la logica para los lingüistas. 

Desde mediados de los anos 80, ha habido una tendencia a poner mas informacion 
en el léxico y menos en la gramâtica. La gramâtica léxico-funcional, o LFG, (Bresnan, 
1982) es la primera gramâtica formai importante que fue lexicalizada. Si se lleva la le- 
xicalizacion hasta el extremo, se acaba en una gramâtica de categorias, que tiene so- 
lamente dos réglas gramaticales, o en una gramâtica de dependencia (Melcuk y Pol- 
guer, 1988), en la que no hay frases, solamente palabras. Sleator y Temperley (1993), 
describen un popular analizador gramatical que utiliza dependencias gramaticales. La 
gramâtica Tree-adjoining (de ârboles contiguos ), o TAG, (Joshi, 1985) no es estricta- 
mente léxica, pero su forma de lexicalizaciôn estâ ganando en popularidad (Schabes et 
al., 1988). Wordnet (Fellbaum, 2001) es un diccionario disponible püblicamente con cer- 
ca de 100.000 palabras y frases, clasificadas por categorias de partes de oraciones y con 
enlaces semânticos taies como sinonimos, antônimos y partes-de. 

Los primeras algoritmos de anâlisis sintâctico para computador, los demostro Yngve 
(1955). A finales de 1960 se desarrollaron algoritmos eficientes, que han sufrido pocos 
cambios desde entonces (Kasami, 1965; Younger, 1967; Graham et al., 1980). Nuestro 
algoritmo de grafos fue concluido por Earley’s (1970). En el texto de anâlisis sintâcti¬ 
co y compilaciôn de Aho y Ullman (1972) aparece un buen resumen del algoritmo. Max¬ 
well y Kaplan (1993) muestran como un analizador sintâctico de grafos con algunas am- 
pliaciones puede ser eficiente en la mitad de los casos. Church y Patil (1982) dirigieron 
la resolucion de la ambigüedad sintâctica. 

La interpretaciôn semântica formai de los lenguajes naturales tiene su origen en el 
campo de la filosofia y de la logica formai y guarda una estrecha relacion con la obra 
de Alfred Tarski (1935) sobre la semântica de los lenguajes formales. Bar-Hillel fue el 
primero en considerar los problemas de la pragmâtica y en proponer la forma de mane- 
jarla a través de la logica formai. Por ejemplo, introdujo el término indexical ( indexa- 
ciôn ) de C.S. Peirce (1902) en la lingüistica (Bar-Hillel, 1954). El ensayo de Richard 
Montague « English as a formai language » (1970) es una especie de manifiesto del anâ¬ 
lisis logico del lenguaje, pero el libre de Dowty et al. (1991) y el artfculo de Lewis (1972) 
son mâs accesibles. Thomason (1974) édité las obras complétas de Montague. En el cam¬ 
po de la inteligencia artificial, el trabajo de McAllester y Givan (1992) continüa con la 
tradicion de Montagovian, anadiendo nuevas aclaraciones técnicas. 

La idea de usar una logica intermedia o cuasi-lôgica para resolver problemas taies 
como la determinacion del alcance de los cuantificadores se remonta a Woods (1978) y 
estâ présente en muchos sistemas recientes (Alshawi, 1992; Hwang y Schubert, 1993). 

El primer sistema PLN ( Procesamiento de Lenguaje Natural ) para resolver una ta- 
rea actual fue probablemente el sistema de preguntas y respuestas Baseball (Green et 
al., 1961), que maneja preguntas sobre una base de dates estadlstica de béisbol. Juste 
después aparecio el sistema Lunar de Wood (1973), que responde preguntas sobre las 
rocas que se trajeron en el programa Apollo. Roger Schank y sus estudiantes constru- 
yeron una sérié de programas (Schank y Abelson, 1977; Wilensky, 1978; Schank y Ries- 
beck, 1981; Dyer, 1983) que tratan sobre la tarea de comprender un lenguaje. Sin em- 
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bargo, se puso mayor énfasis en la representacion y el razonamiento que en el lenguaje 
por si mismo. Los problemas incluian la representacion de situaciones estereotipadas (Cu- 
llingford, 1981) describiendo la organizaciôn de la memoria humana (Rieger, 1976; Ko- 
lodner, 1983) y la comprensiôn de planes y objetivos (Wilensky, 1983). 

Desde los comienzos de las mâquinas traductoras en los anos 50, se considéré la ge¬ 
neraciôn de lenguaje natural, pero no se considéré como un asunto monolingüe hasta los 
70. Son representativos los trabajos de Simmons y Slocum (1972) y Goldman (1975). 
Penman (Bateman y otros, 1989) fue uno de los primeras sistemas de generaciôn com¬ 
pléta basado en la Gramâtica Sistemâtica (Kasper, 1988). Desde los 90 estân disponibles 
dos importantes sistemas de generaciôn de dominio püblico, KPML (Bateman, 1997) y 
FUF (Elhadad, 1993). Entre los libres importantes sobre generaciôn se incluye McKeown 
(1985), Hovy (1988), Pattern (1988) y Reiter y Dale (2000). 

Uno de los primeras trabajos sobre desambiguaciôn fue la teorfa de semântica de prio- 
ridades de Wilk (1975), que trataba de encontrar interpretaciones que minimicen el nu¬ 
méro de anomalias semânticas. Hirst (1987) describe un sistema con objetivos simila- 
res que se aproxima bastante a la semântica de composiciôn descrita en este capitulo. 
Hobbs et al. (1993) describen una red cuantitativa para medir la calidad de una inter- 
pretacién sintâctica y semântica. Desde enfonces, ha llegado a ser mâs comün utilizar 
una red bayesiana explicita (Charniak y Goldman, 1992; Wu, 1993). En lingüistica, la 
teoria de optimalidad 19 o perfeccionamiento (Linguistics) (Kager, 1999) se basa en la idea 
de la construcciôn de restricciones suaves sobre la gramâtica, obteniendo asi un ranking 
natural de interpretaciones, que en la gramâtica genere todas las posibilidades de igual 
rango. Norving (1988) trata los problemas de considerar mültiples interpretaciones si- 
multâneamente, mejor que establecer una ünica interpretaciôn de mâxima probabilidad. 
Los crfticos literarios (Empson, 1953; Hobbs, 1990) han sido ambiguos con respecta a 
si la ambigüedad se debe resolver o cuidar. 

Nunberg (1979) perfilô un modelo formai de metonimia. Lakoff y Johnson (1980) 
realizan un anâlisis y una catalogaciôn atractivos de las metâforas comunes en inglés. 
Ortony (1979) présenta una colecciôn de articulos sobre metâforas; Martin (1990) ofre- 
ce una aproximaciôn computacional a la interpretaciôn de metâforas. 

El tratamiento de la resoluciôn de referencias sigue a Hobbs (1978) en sus plantea- 
mientos. Lapppin y Leass (1994) construyen un modelo mâs complejo basado en un me- 
canismo de puntuaciôn cuantitativo. Trabajos mâs recientes (Kehler, 1997; Ge et al., 1998) 
han utilizado una mâquina de aprendizaje para sincronizar los parâmetros cuantitativos. 
Los libres de Hirst (1981) y Mitkov (2002) son dos excelentes recopilaciones de reso¬ 
luciôn de referencias. 

En 1758, David Hume en Enquiry Concerning the Human Understanding argumenta 
que el lenguaje estâ conectado por «très principios de conexiôn entre ideas, denomina- 
das Semejanza, Contigüidad en tiempo o lugar, y Causa o Efecto». Asi empezô una lar- 
ga historia de pruebas para définir relaciones de coherencia. Hobbs (1990) nos propor- 
ciona la colecciôn usada en este capitulo; Mann y Thompson (1983) proporciona una 
colecciôn mâs elaborada que incluye soluciôn oculta, evidencia, justificaciôn, motiva- 
ciôn, razôn, secuencia, posibilidad, elaboraciôn, replanteamiento, condiciôn, circuns- 


19 


Se usa optimalidad, a pesar de no ser un término espanol, para referirse a una técnica de perfeccionamiento. 
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tancia, causa, concesiôn, ambientacion, y tesis-anritesis. Este modelo evoluciona sobre 
una teoria de la estructura retorica (RST), que es, quizâ hasta hoy la teorfa mas desta- 
cada (Mann y Thompson, 1988). Este capitulo toma prestado algunos de los ejemplos 
del capitulo de Jurafsky y Martin (2000) escrito por Andrew Kehler. 

Grosz y Sidner (1986) presentan una teoria de discurso coherente basado en el des- 
plazamiento del foco de atencion, y Grosz et al. (1995) presentan una teoria relacionada 
que se basa en la nociôn del centrado. Joshi, Webber y Sag (1981) recopilan trabajos im¬ 
portantes sobre el discurso. Webber présenta un modelo de la interaccion de las restricciones 
de sintaxis y del discurso, sobre lo que se puede decir en un momento del mismo (1983) 
y sobre la forma en la que los tiempos verbales interactüan con el discurso (1988). 

El primer resultado importante sobre gramâtica de inducciôn fue negativo: Gold 
(1967) mostro que no es posible asegurar el aprendizaje de una gramâtica indépendan¬ 
te del contexto correcta, proporcionando una coleccion de cadenas de la gramâtica. Esen- 
cialmente, la idea es que, dada una coleccion de cadenas Sj, s 2 ,— s n , la gramâtica correcta 
podria ser totalmente inclusiva (S palabra*), o podia ser una copia de la entrada 
(S —» .v, | ,v 2 1... | .s'„), o las dos cosas. Lingüistas eminentes, como Chomsky (1957, 1980) 
y Pinker (1989,2000), usaron los resultados de Gold para argumentar que debe existir una 
gramâtica universal innata que todos los ninos conocen desde que nacen. El argumen¬ 
ta conocido por la Pobreza de los Estîmulos, es que los ninos no reciben otras entradas 
de lenguaje que ejemplos positivos: sus padres producen ejemplos precisos de su lenguaje 
y muy raras veces corrigen errores. Por tanto, y dado que Gold demostro que el aprendi¬ 
zaje de una GIC a partir de ejemplos positivos es imposible, los ninos ya deberian cono- 
cer la gramâtica y simplemente se deberia ajustar alguno de los paramétras de su gramâtica 
innata y ensenarles vocabulario. Mientras que estas argumentos dominan las teorfas de 
muchos de los lingüistas seguidores de Chomsky, estos han sido desestimados por otros 
lingüistas (Pullum, 1996; Elman et al., 1997) y por la mayoria de los cientificos de la com- 
putacion, tan pronto como en 1969, Horning mostro que es posible aprender, en el sen- 
tido del aprendizaje PAC 20 , una gramâtica independiente del contexto probabilista. 
Desde entonces, ha habido muchas demostraciones empiricas convincentes sobre 
el aprendizaje ünicamente a través de ejemplos positivos, taies como el trabajo ILP de 
Mooney (1999), Muggleton (1996), Raedt (1994) y la remarcable tesis de Schütze (1995) 
y de Marcken (1996). Es posible aprender otros formalismos de gramâticas, como los len- 
guajes regulares (Oncina y Garcia, 1992; Denis, 2001), y lenguajes de ârboles regulares 
(Carrasco et al., 1998) y automata de estado finito (Parekh y Honavar, 2001). 

El sistema Sequitur se debe a Nevill-Manning y a Witten (1997). Es interesante no- 
tar que, al igual que Marcken, ellos remarcan que sus esquemas de gramâtica de induc- 
cion son también buenos esquemas de comprension. Esto estâ de acuerdo con el prin- 
cipio de la codificacion de longitud de descripciôn minirna: una buena gramâtica es una 
gramâtica que minimiza la suma de dos longitudes: la longitud de la gramâtica y la lon¬ 
gitud del ârbol de anâlisis sintâctico del texto. 

La programaciôn logica inductiva trabaja para que el aprendizaje del lenguaje incluya 
el sistema Chill de Zelle y Mooney (1996) y un programa de Mooney y Califf (1995), 
que aprende réglas a partir del tiempo pasado de los verbos mejor que la red de nervios 


20 


PAC - Probablemente Aproximadamente Correcto. 
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pasado o sistemas de ârboles de decision. Cussens y Dzeroski (2000) editaron una co- 
lecciôn de ponencias sobre el lenguaje de aprendizaje en lôgica. 

La Asociacion de Lingüistica Computacional (ACL) realiza regularmente confe- 
rencias y publica la revista Lingüistica Computacional. También hay una Conferencia 
Internacional sobre Lingüistica Computacional (COLING). 

Readings in Natural Languaje Processing (Grosz et al., 1986) es una antologia que 
contiene muchas de las primeras ponencias importantes. Dale et al. (2000) hace hincapié 
en herramientas prâcticas para construir sistemas PLN. El libro de texto de Jurafsky y Mar¬ 
tin (2000) présenta una introduccion comprensiva sobre este campo. Allen (1995) es una 
interpretaciôn ligeramente antigua. Pereira y Sheiber (1987) y Convington (1994) ofrece 
revisiones concisas del procesamiento sintâctico basado en implementaciones de Prolog. 
La Enciclopedia de IA tiene muchos articulos ütiles en este campo; véanse especialmen- 
te las entradas «Lingüistica Computacional» y «Comprension del Lenguaje Natural». 



EJERCICIOS 

22.1 Lea una sola vez el siguiente texto, tratando de comprender y recordar lo mas que 
pueda. Posteriormente se le harâ una pmeba sobre él. 

El procedimiento es en realidad muy sencillo. Primero, distribuya todas las cosas en gru- 
pos distintos. Desde luego que una pila sera sufïciente dependiendo de todo lo que haya 
que hacer. Si no cuenta con los elementos necesarios, el siguiente paso consistiria en ir 
a otro sitio donde si los hubiera; de no ser este el caso, todo estaria listo para que em- 
piece. Es importante que no se exceda en realizar cosas. Es decir, es mejor hacer unas 
cuantas cosas a la vez, y no demasiadas. A corto plazo esto no pareceria ser muy im¬ 
portante, pero podria ser causa de complicaciones. Cometer errores también résulta cos- 
toso. Al principio, el procedimiento completo podria parecer complicado. Sin embargo, 
al poco tiempo se convertira en parte de la vida. Aunque es dificil prever que ya no se 
necesite la realizacion de esta labor en el futuro inmediato, uno nunca sabe. Una vez con- 
cluido el procedimiento, se vuelve a poner el material en distintos grupos. Se coloca en 
el lugar apropiado. Finalmente este material se utilizarâ una vez mas y el ciclo se repite 
de nuevo. Sin embargo, es parte de la vida. 


22.2 Utilizando la notacion DCG escriba una gramâtica para un lenguaje que sea justa- 
mente como £ p exceptuando que fuerza la concordancia entre el sujeto y el verbo de una 
sentencia y, por tanto, no généra «Yo olfatean el wumpus». 

22.3 Aumente la gramâtica £ p para que contrôle la concordancia entre el articulo y el 
nombre. Es decir, asegure qué «agentes» hay en una FN, y cuâles no. 

22.4 Résuma las principales diferencias entre Java (o cualquier otro lenguaje de 
computaciôn con el que esté familiarizado) y el inglés, comentando el problema de la 
«comprension» en cada caso. Considéré aspectos taies como la gramâtica, la sintaxis, la 
semântica, la pragmâtica, la composiciôn, la dependencia del contexto, la ambigüedad 
léxica, la ambigüedad sintâctica, la localizacion de referencias (incluidos los pronombres), 
el conocimiento previo, y, en primer lugar, qué se entiende por «comprender». 




942 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


22.5 /Cuâles de las siguientes razones justifican el empleo de una forma cuasi logica? 

a) Facilitar la elaboracion de réglas de gramâtica por composiciôn sencillas. 

b) Ampliar la expresividad del lenguaje de representacion semântica. 

c ) Capacidad para presentar ambigüedades de alcance de los cuantificadores (entre 
otros) de manera sucinta. 

d) Facilitar la desambiguaciôn semântica. 

22.6 Détermine qué interpretacion semântica da a las siguientes oraciones utilizando la 
gramâtica propuesta en este capitulo: 

a) Es un wumpus. 

b) El wumpus estâ muerto. 

c) El wumpus estâ en 2,2. 

/Séria una buena idea que la interpretacion semântica de «Es un wumpus» se redujera 
aBxi £ Wumpus ? Considéré otras oraciones posibles taies como «Era un wumpus». 


22.7 Sin consultar el Ejercicio 22.1 responda a las siguientes preguntas: 

a) /Cuâles son los cuatro pasos que se mencionan? 

b ) /Qué paso no se incluye? 

c) /Cuâl es el «material» que se menciona en el texto? 

d) /Qué clase de error resultaria costoso? 

e) /Es mejor cometer muchos o pocos? /Por qué? 

22.8 Este ejercicio se refiere a gramâticas de lenguajes muy sencillos 

a) Escriba una gramâtica de contexto libre para el lenguaje a"b". 

b) Escriba una gramâtica de contexto libre para el lenguaje de los palindromos: el 
conjunto de todas las cadenas cuya segunda mitad es el inverso de la primera. 

c ) Escriba una gramâtica de context-sensitive para el lenguaje de la duplicacion: 
el conjunto de todas las cadenas cuya segunda mitad es la misma que la primera. 


22.9 Considéré la oracion «Una persona se dirigiô caminando lentamente hacia el 
supermercado» y el siguiente lexicon 


Pronombre —» alguien V —» camino 

Adv —»■ lentamente prep. —> a 

Det —»• el Nombre —» supermercado 


/Cuâl de los très siguientes conjuntos de réglas gramaticales, généra la oracion dada? 
Muestre el ârbol de anâlisis sintâctico correspondiente. 

(A): (B): 


S —»■ FN FV 
FN —*■ Pronombre 
FN —*■ Artîculo Nombre 
FV->FV F P 
FV —» FV Adv Adv 
FV —> Verbo 
F P —> Prep. F N 
FN —» Nombre 


S —* FN FV 
FN —* Pronombre 
FN —> Nombre 
F N —> Articula F N 
FV Verbo Vmod 
Vmod —» Adv Vmod 
Vmod —» Adv 
Adv -> F P 
F P —» prep. FN 


(C): 

S —»■ FN FV 
FN —* Pronombre 
FN Artîculo FN 
FV —* Verbo Adv 
Adv —» Adv Adv 
Adv -> FP 
F P Prep. F N 
FN —> Nombre 
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Para cada una de las très gramâticas anteriores, escriba très oraciones en espanol y très 
oraciones no espanolas que genere la gramâtica. Cada una de las oraciones deberia ser 
signifieativamente diferente, deberia tener al menos seis palabras y se deberia basar en 
un conjunto nuevo completo de entradas léxicas (las cuales deberia définir). Sugiera de 
qué forma se debe ampliar cada gramâtica para permitir la generaciôn de oraciones no 
espanolas. 

22.10 Implemente una version del algoritmo de anâlisis con grafo que devuelva un âr- 
bol empaquetado con todos los arcos que abarquen la entrada compléta. 

22.11 Implemente una version del algoritmo de anâlisis con grafo que devuelva un âr- 
bol empaquetado con el arco mâs a la izquierda el mâs largo, y si ese arco no puede abar- 
car la entrada compléta, continüe el anâlisis desde el final de ese arco. Muestre por qué 
necesitarâ llamar a Predecir antes de continuar. El resultado final es una lista de ârboles 
empaquetados para que la lista compléta abarque la entrada. 

22.12 (Derivado de Barton et al. (1987).) Este ejercicio se refiere a un lenguaje que se 
llama Bufalo", que se parece bastante al inglés (o al menos a e 0 ), excepto porque la ünica 
palabra de este léxico es bufalo. Las siguientes son dos sentencias del lenguaje: 

Bufalo bufalo bufalo Bufalo bufalo 

Bufalo Bufalo bufalo bufalo bufalo Bufalo bufalo 

En el caso de que créa que no son sentencias, las siguientes son dos sentencias en inglés 
con una estructura sintâctica correspondiente a las anteriores: 

Dallas cattle bewilder Denver cattle 

Chefs London critics admire cook French food 

Escriba la gramâtica de Bufalo". Las categorias léxicas son ciudad, nombre plural y ver- 
bo transitivo, y habria una régla gramatical para la sentencia, una para la frase verbal y 
très para la frase nominal: nombre plural, frase nominal precedida por una ciudad como 
un modificador y una frase nominal seguida por una clâusula relativa reducida. Una clâu- 
sula relativa reducida es una clâusula que pierde el pronombre relativo. Ademâs, la clau- 
sula estâ formada por una frase nominal sujeto seguida por un verbo sin un objeto. Un ejem- 
plo de clâusula relativa reducida, en el ejemplo anterior, es «London critics admire». Tabule 
el nümero de analizadores posibles para Bufalo" desde n hasta 10. 

Extra: Cari de Marcken calculé que hay 121,030,872,213,055,159,681,184,485 senten¬ 
cias de longitud 200 para Bufalo’ 1 (para la gramâtica que él usé). /Como lo hizo? 

22.13 Dibuje un ârbol de anâlisis sintâctico para un discurso correspondiente a la his- 
toria de la pâgina 933 sobre como John va a un restaurante de lujo. Use las dos réglas gra- 
maticales para Segmento, estableciendo la propiedad RelaciônCoherencia para cada nodo. 
(Necesita mostrar el anâlisis para las sentencias individuales.) Haga lo mismo para las sen¬ 
tencias de la 5 a la 10 del discurso elegido. 

22.14 Se nos olvido mencionar que el texto del Ejercicio 22.1 se titula «Lavando trapos». 
Relea el texto y responda a las preguntas del Ejercicio 22.7. / Lo hace mejor esta vez? Brans- 
ford y Johnson (1973) usaron este texto en un experimento mejor controlado y consideraron 
que ese titulo ayudaba de forma significativa. /Qué le dice sobre la comprension del discurso? 



Procesamiento 
23 probabilistico 
del lenguaje 


En el cual vemos cômo se pueden utilizar modelos del lenguaje simples, 
entrenados estadîsticamente para procesar colecciones de millones de palabras, 
en vez de sencillas oraciones exactas. 


En el Capitulo 22, vimos cômo un agente podia comunicarse con otro agente (ser 
humano o software), a través de expresiones en un lenguaje comün. Para extraer el sig- 
nificado total de las expresiones es necesario realizar el anâlisis sintâctico y semântico 
completo de dichas expresiones, y esto es posible porque las palabras son cortas y res- 
tringidas a un dominio limitado. 

En este capitulo, consideramos el acercamiento a la comprension de idiomas basa- 

basado en su do en su corpus. Un corpus ( corpora en plural) es una coleccion grande de texto, tal 

CORPUS 

como los 1.000 millones de paginas que constituyen el World Wide Web. El texto esta 
escrito por y para los seres humanos, y la tarea del software es hacerlo mas fâcil para 
que el ser humano encuentre la informacion correcta. Esta aproximacion implica el uso 
de la estadistica y aprender de su corpus, y exige generalmente modelos probabilisticos 
del lenguaje que pueden aprenderse de los datos y que son mas simples que el DCGs 
aumentado del Capitulo 22. Para la mayoria de las tareas, el volumen de datos mas que 
otras cosas afecta al modelo mas simple del lenguaje. Veremos très tareas especificas: 
recuperacion de datos (Apartado 23.2), extracciôn de la informacion (Apartado 23.3) y 
traduccion automâtica (Apartado 23.4). Pero primera presentamos una vision general de 
los modelos probabilisticos del lenguaje. 


23.1 Modelos probabilisticos del lenguaje 


El Capitulo 22 nos proporciono un modelo lôgico del lenguaje: utilizamos CFGs y 
DCGs para caracterizar una cadena como un miembro o no de un lenguaje. En esta apar- 
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DEL LENGUAJE 


SUAVIZAR 


SUAVIZAR 
ANADIENDO UNO 


tado introduciremos varios modelos probabilisticos. Los modelos probabilisticos tienen 
varias ventajas. Pueden ser entrenados convenientemente a partir de los datos: el apren- 
dizaje es justo una cuestion de contar ocurrencias (con algunas relajaciones por los erro- 
res debidos a basamos en muestras de tamano pequeno). También son mas robustos 
(porque pueden aceptar cualquier cadena, a pesar de tener una probabilidad baja), re- 
flejan el hecho de que no todos los hablantes estân de acuerdo en qué frases son parte 
de un idioma actualmente, y pueden utilizarse para la desambiguaciôn: la probabilidad 
de elegir la interpretacion mas probable. 

Un modelo probabilistico del lenguaje define una distribucion de la probabilidad 
sobre un conjunto (posiblemente infinito) de cadenas. Ya hemos visto ejemplos de mo¬ 
delos: el bigram y el trigram, son modelos del lenguaje usados en el reconocimiento del 
habla (Apartado 15.6). Un modelo unigram asigna una probabilidad P{w) a cada pala¬ 
bra del léxico. El modelo asume que las palabras estân elegidas independientemente, asi 
que la probabilidad de una secuencia es el producto de la probabilidad de sus palabras, 
dada por II,. E(w ( ). La secuencia siguiente de 20 palabras fue generada al azar a partir 
de un modelo unigram de las palabras de este libro: 

logico sea al igual que la confusion a puede enderezar el agente de los intentos que es la 
meta era 

Un modelo bigram asigna una probabilidad P(w i \ w t . _ t ) a cada palabra, dependiendo de 
la palabra anterior. LaFigura 15.21 enumero algunas de estas probabilidades del bigram. 
Un modelo bigram de este libro généra al azar la siguiente secuencia: 

planeando los sistemas expertos puramente de diagnostico son acercamiento de compu- 
to muy similar serfan representados compacto usando el dedo 

En general, un modelo n -gram condiciona una palabra a las n — 1 anteriores, asignan- 
do una probabilidad P(w i \ w t _ 1} .. ,w t _ : ). Un modelo trigram de este libro généra al azar 
la siguiente secuencia: 

planificacion y programacion se integran el éxito de bayes simple que el modelo es justo 
una fuente anterior posible para 

Incluso con esta pequena muestra, deberia estar claro que el modelo trigram es mejor 
que el modelo bigram (que es mejor que el modelo unigram), para aproximar la lengua 
inglesa y para aproximar el contenido de un libro de textos de IA. Los modelos asimismo 
convienen: el modelo trigram asigna a su secuencia al azar una probabilidad de 10“ 10 , 
el bigram 10 -29 , y el unigram 10 -59 . 

Con medio millon de palabras, este libro no contiene bastantes datos para producir 
un buen modelo bigram, permitiendo solamente un modelo trigram. En el léxico de 
este libro hay cerca de 15.000 palabras distintas, asi que el modelo bigram incluye 
15.000 2 = 225 millones de pares de palabras. Claramente, por lo menos un 99,8 por cien- 
to de estos pares tendrân una frecuencia de apariciôn cero, pero no queremos que nues- 
tro modelo diga que todos estos pares son imposibles. Necesitamos alguna manera de 
suavizar las frecuencias con valor cero. La manera mas simple de hacer esto se llama 
suavizar anadiendo uno: agregamos uno al contador de cada bigram posible. Si en la 
recopilaciôn hay N palabras y B bigrams posibles, enfonces a cada bigram con un con¬ 
tador real c se le asigna una estimacion de probabilidad de (c + 1 )/(N + B). Este méto- 
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do élimina el problema de los n -gram de probabilidad cero, pero la asunciôn de que cada 
contador sea incrementado exactamente en uno es dudosa y puede conducir a estima- 
ciones pobres. 

Otra aproximacion es el suavizado por interpolaciôn lineal, que combina los mo- 
delos trigram, bigram, y unigram por interpolaciôn lineal. Definimos nuestra estimaciôn 
de la probabilidad como 

P{w, | w,._ 2 w ; _!) = c 3 P{w | w i _ 2 w i _ l ) + c 2 P(w , | w^) + c x P{w t ), 

donde c 3 + c 2 + cq = 1. El c, de los parâmetros puede ser fijo, o pueden ser entrenados 
con un algoritmo EM. Es posible tener valores de los c i que dependan de los contado- 
res n-gram, de modo que pongamos un peso mas alto en las estimaciones de la proba¬ 
bilidad que se derivan de registres mas altos. 

Un método para evaluar un modelo del lenguaje es como sigue: primero, dividir su 
corpus en un corpus de entrenamiento y un corpus de pmeba. Determinar los parâme¬ 
tros del modelo con base en los datos del entrenamiento. Entonces calcular la probabi¬ 
lidad asignada al corpus de prueba por el modelo; cuanto mas alta la probabilidad mejor. 
Un problema con esta aproximacion es que Piyvords ) es demasiado pequena para las ca¬ 
denas largas; los nümeros podrfan causar desbordamiento de capacidad inferior de pun- 
to flotante, o podrfan ser difîciles de leer. 

En vez de probabilidad podemos calcular la perplejidad de un modelo en una 
cadena de pmeba de palabras 

PerplejidadÇyvords) = 2~^ (nwords))IN 

donde N es el nümero de palabras. Cuanto mas baja es la perplejidad, mejor es el mo¬ 
delo. Un modelo n-gram que asigna a cada palabra una probabilidad de l/k tendra per¬ 
plejidad k\ se puede pensar en perplejidad como el factor de ramificaciôn medio. 

Como ejemplo de qué puede hacer el modelo n-gram, consideremos la tarea de 
segmentaciôn: encontrar los limites de palabras en un texto sin espacios. Esta tarea es 
necesaria en japonés y chino, idiomas que se escriben sin espacios entre las palabras, 
pero asumimos que la mayorfa de los lectores se sentirân mas cômodos con inglés. La 
oraciôn 

Itiseasytoreadwordswithoutspaces 

para nosotros es de hecho fâcil de leer. Puede ser que se piense que es porque tenemos 
conocimiento compléta de la sintaxis, semântica y de la prâctica de inglés. Mostrare- 
mos que la oraciôn se puede descifrar fâcilmente por un modelo simple de palabra 
unigram. 

Vimos anteriormente como la ecuaciôn de Viterbi (15.9), se puede utilizar para so- 
lucionar el problema de encontrar la secuencia mas probable a través de un reticulo de 
las posibilidades de la palabra. La Figura 23.1 muestra una version del algoritmo de Vi¬ 
terbi disenado especificamente para el problema de la segmentaciôn. Toma como entrada 
una distribuciôn de probabilidad de la palabra del unigram, P(word), y una cadena. En¬ 
tonces, para cada posiciôn i de la cadena, almacena en best[i] la probabilidad de la se- 
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funciôn Segmentacion-Viterbi( tort, P) devuelve las mejores palabras y sus probabilidades 
entradas: text, una cadena de caractères con los espacios eliminados 

P distribucion de la probabilidad para las palabras del unigram 

n •<— LENGTH(tot) 

words vector vacîo de longitud n + 1 

best <— vector de longitud n + 1, inicialmente todas las componentes a 0.0 
best[ 0] * — 1.0 

/ * complété los vectores best y words via programaciôn dinâmica * / 

para i — 0 hasta n hacer 
para j = 0 hasta i - 1 hacer 

word <— text[j:i\ 

W LENGTH(hw4) 

si P[word] X best[i — w] > best[i] entonces 
best[i] <— P[word\ X best[i — w] 
words[i] <— word 

/* ahora récupéré la secuencia de las mejores palabras */ 
sequence <— lista vacia 
i <— n 

mientras i > 0 hacer 

poner words[i\ en el trente de sequence 
i*— i — Length(ww4.v|ï]) 

/ * Retorna la secuencia de las mejores palabras y la probabilidad de la secuencia * / 
devolver sequence, best[i\ 


Figura 23.1 Algoritmo basado en el de Viterbi para segmentacion palabras. Dada una cadena de 
palabras con los espacios eliminados, récupéra la segmentacion mas probable en palabras. 


cuencia mas probable que la atraviesa desde el comienzo hasta el i. También almacena 
en words[i] la conclusion de la palabra en la posiciôn i que produjo la mejor probabili¬ 
dad. Una vez que haya acumulado los vectores best y words mediante programaciôn di¬ 
nâmica, entonces trabaja al rêvés con palabras para encontrar el mejor camino. En este 
caso, con el modelo del unigram del libro, la mejor secuencia de palabras «Is easy to 
read words without spaces» con probabilidad 10” 25 . Comparando las partes de la se¬ 
cuencia, vemos por ejemplo que «easy» tiene probabilidad 2,6 X 10 -4 en el unigram, 
mientras que «e as y» tiene una probabilidad mucho mas baja, 9,8 X 10“ 12 , a pesar del 
hecho de que las palabras eey son bastante comunes en las ecuaciones del libro. De for¬ 
ma similar, tenemos 


P(«without») = 0,0004; 

P(«with») = 0,005; P(«out») = 0,0008; 

P(«with out») = 0,005 X 0,0008 = 0,000004. 

Por tanto «without» es 100 veces mas probable que «with out» segün el modelo unigram. 

En esta apartado hemos discutido modelos n-gram sobre palabras, pero hay también 
muchas aplicaciones de los modelos /?-gram sobre otras unidades, taies como caractè¬ 
res o partes del habla. 
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GRAMÂTICAS 
PROBABILISTICAS 
INDEPENDIENTES 
DEL CONTEXTO 


Los modelos probabilisticos //-grain de las gramâticas independientes del contexto se 
aprovechan de la estadistica de co-ocurrencia en los corpus, pero no aportan ninguna no- 
ciôn de la gramâtica para valores mayores que n. Un modelo alternativo del lenguaje es 
la gramâtica probabilistica independiente del contexto, o PCFG 1 , que consiste en un 
CFG en donde cada régla de reescritura tiene asociada una probabilidad. La suma de las 
probabilidades a través de las réglas con el mismo lado izquierdo es 1. La Figura 23.2 
muestra un PCFG para una parte de la gramâtica e 0 . 

En el modelo PCFG, la probabilidad de una secuencia, P(words), es justo la suma 
de las probabilidades de sus ârboles de anâlisis. La probabilidad de un ârbol dado es el 
producto de las probabilidades de todas las réglas que constituyen los nodos del ârbol. 
La Figura 23.3 muestra cômo calcular la probabilidad de una oracion. Es posible cal- 
cular esta probabilidad usando un programa de interpretacion del grafo CFG para enu- 
merar las posibles interpretaciones y después simplemente anadirlo a las probabilidades. 
Sin embargo, si estamos interesados solamente en el anâlisis mâs probable entonces es 
un derroche la enumeracion de los improbables. Podemos utilizar una variaciôn del al- 
goritmo de Viterbi para encontrar eficientemente el anâlisis mâs probable, o podemos 
utilizar una técnica de büsqueda mejor el primero (tal como lo A*). 


S -» FN FV [1.00] 


FN —* Pronombre [0.10] 

Nombre [0.10] 

Sustantivo [0.20] 

Articulo Sustantivo [0.50] 
FN PP [0.10] 


FV -» Verbo [0.60] 

| FV FN [0.20] 

FV PP [0.20] 

PP —> Préposition FN [ 1.00] 


Sustantivo 

Verbo 

Pronombre 

Articulo 

Préposition 


brisa [0.10] | wumpus [0.15] | agente [0.05] 
ve[0.15] | huele [0.10] | van [0.25] | ... 
mi [0.05] | tu [0.10] | yo [0.25] | él [0.20] | 
el [0.30] [ un [0.35] | cada [0.05] | ... 
a [0.30] I en [0.25] I sobre [0.05] I ... 


Figura 23.2 Una gramâtica probabilistica independiente del contexto (PCFG) y del léxico para 
una porciôn de la gramâtica e 0 . Los numéros entre corchetes indican la probabilidad de que un sim- 
bolo del lado izquierdo sea reescrito con la régla correspondiente. 


PCFG se conoce también como gramâticas estocâsticas contexto libre SCFG. 
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5 


FN 

FV 


0,60 

Artîculo Nombre 

Verbo 

10,05 0,15 

0,10 

Cada wumpus 

huele 

Figura 23.3 Ârbol de anâlisis para la oracion «Cada wumpus huele» mostrando las probabilida¬ 
des de cada subestructura. La probabilidad del ârbol en su totalidad es 1,0 X 0,5 X 0,05 X 0,15 X 
0,60 X 0,10 = 0,000225. Puesto que este ârbol es el ünico anâlisis para la oracion, ese numéro es 

también la probabilidad de la oracion. 



El problema con los PCFGs es que son contexto libre. Eso significa que la diferen- 
cia entre P(«cat a banana») y P («eat a bandanna») dépende solamente de P(«banana») 
frente a P(«bandanna») y no en la relacion entre «eat» y los respectivos objetos. Para 
conseguir esa clase de relacion, necesitaremos una cierta clase de modelo sensible al con¬ 
texto, como el PCFG léxico, en el cual la cabeza de una frase 2 puede desempenar un 
papel en la probabilidad de la frase que la contiene. Con bastantes datos de entrenamiento, 
podriamos hacer la régla FV <— FV FN condicionada a la cabeza del FV (eat) y la 
cabeza del FN (banana). El PCFG léxico captura asi algunas de las restricciones de la 
co-ocurrencia de los modelos del n-gram junto con las restricciones gramaticales de los 
modelos CFG. 

Un problema mas es que los PCFG tienen una preferencia demasiado fuerte por las 
oraciones mas cortas. En un corpus tal como el diario Wall Street Journal la longitud me¬ 
dia de una oracion es aproximadamente de 25 palabras. Pero un PCFG terminarâ gene- 
ralmente asignando una probabilidad bastante alta a réglas taies como S —> FN FV y FN 
—> Pronombre y FV —> Verbo. Esto significa que el PCFG asignarâ probabilidad bas- 
tante alta a muchas cadenas cortas, por ejemplo «él durmio», mientras que en el diario 
sera mas probable ver algo como «ha sido divulgada por una fuente fiable del gobiemo 
que la alegaciôn de que él durmio es crefble». Parece que las frases en el diario realmente 
no son de contexto libre; en vez de eso los escritores tienen una idea de la longitud pre- 
vista de la oracion y utilizan esa longitud como restriccion global en sus oraciones. Esto 
es difîcil de reflejar en un PCFG. 


Aprendizaje de probabilidades para PCFGs 

Para crear un PCFG, tenemos toda la dificultad de construir un CFG, combinada con el 
problema de fijar las probabilidades para cada régla. Esto sugiere que aprender la gra- 
mâtica de los datos podria ser mejor que una aproximaciôn con la ingenieria de cono- 
cimiento. Justo como con el reconocimiento del habla, hay dos tipos de datos que 


2 La cabeza de una frase es la palabra mâs importante, por ejemplo, el sustantivo de una oracion nominal. 
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ALGORITMO 

DENTRO-FUERA 


FORMA NORMAL 
DE CHOMSKY 


podrfan darse: analizados y no analizados. La tarea es considerablemente mas fâcil si 
tenemos datos que han sido analizados en ârboles por lingüistas (o por lo menos por na- 
tivos entrenados). Crear tal corpus es una inversion grande, y las mas grandes contienen 
«solamente» alrededor de un millôn de palabras. Dado un corpus de ârboles, podemos 
crear un PCFG simplemente contando (y suavizando): para cada simbolo no terminal, 
considerando todos los nodos con ese simbolo como ralz, y creando las réglas para cada 
combinacion diferente de hijos en esos nodos. Por ejemplo, si aparece el simbolo FN 
100.000 veces, y hay 20.000 casos de FV en la lista de los hijos [FN, PP], entonces se 
créa la régla 

FV —> FN PP [0.20] 

La tarea es mucho mas dura si todo lo que tenemos es texto no analizado. En primer lu- 
gar, tenemos realmente dos problemas: aprender la estructura de las réglas de la gramâtica 
y aprender las probabilidades asociadas a cada régla. (Tenemos la misma distinciôn para 
el aprendizaje en redes neuronales o en redes de Bayes.) 

De momento asumiremos que la estructura de las réglas esta dada y que solo esta- 
mos intentando aprender las probabilidades. Podemos utilizar una aproximacion de ma- 
ximizacion de la esperanza (EM), tal como hicimos en el aprendizaje HMMs. Los 
parâmetros que estamos intentando aprender son las probabilidades de la régla. Las va¬ 
riables ocultas son los ârboles del anâlisis: no sabemos si una cadena de las palabras. 
w r ..Wj es o no es generada por una régla X —> a. El paso E estima la probabilidad que 
cada sub-cadena sea generada por cada régla. Entonces el paso M estima la probabili¬ 
dad de cada régla. El computo total se puede hacer mediante programacion dinâmica con 
un algoritmo llamado algoritmo dentro-fuera en analogia al algoritmo adelante-atrâs 
para HMMs. 

El algoritmo dentro-fuera parece mâgico al inducir una gramâtica a partir de texto 
no analizado. Pero tiene varias desventajas. Primero, es lento: 0(n 3 t 3 ), donde n es el nü- 
mero de palabras en una frase y t es el numéro de simbolos no terminales. En segundo 
lugar, el espacio de las asignaciones de la probabilidad es muy grande, y empiricamen- 
te el problema de evitar mâximos locales es un problema severo. Se pueden intentar al- 
ternativas taies como simulated annealing, con un coste incluso mayor. Tercero, los 
anâlisis que son asignados por las gramâticas résultantes son a menudo dificiles de en- 
tender y no satisfacen a los lingüistas. Esto hace complicado combinar conocimiento ma- 
nual con la induccion automâtica. 

Aprendizaje de la estructura de las réglas para PCFGs 

Ahora suponga que no se sabe la estructura de las réglas de la gramâtica. Nuestro pri¬ 
mer problema es que el espacio de los conjuntos posibles de la régla es infinito, asi que 
no sabemos cuântas réglas considerar ni qué tamano tiene cada régla. Una forma de sim- 
plificar este problema es aprender una gramâtica en la forma normal de Chomsky, que 
significa que cada régla estâ en una de las dos formas 


X —» 7 Z 
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donde X,Y y Z son no terminales y t es un terminal. Cualquier gramâtica indépendan¬ 
te del contexto se puede reescribir como una gramâtica en la forma normal de Chomsky 
que reconozca el mismo lenguaje. Podemos enfonces restringirnos arbitrariamente a n 
simbolos no terminales, as! tendriamos n * 1 2 3 4 + nv réglas, donde v es el numéro de slmbo- 
los terminales. En la prâctica, este acercamiento se ha probado eficaz solamente para las 
modelo bayesiano gramâticas pequenas. Una aproximaciôn alternativa llamada modelo Bayesiano com- 
lX lB!!!AD j binado es similar al modelo Sequitur (Apartado 22.8). La aproximaciôn comienza cons- 

truyendo los modelos locales (gramâticas) de cada oraciôn y después utiliza una longitud 
mmima de la descripciôn para combinar modelos. 


23.2 Recuperacion de datos 


recuperacion La recuperacion de datos es la tarea de encontrar los documentos que son relevantes 

rjE 0 "' :)S para los usuarios que necesitan informaciôn. Los ejemplos mâs conocidos de sistemas 

de recuperacion de datos son los motores de büsqueda en el World Wide Web. Un usua- 
rio de WWW puede editar una consulta por ejemplo [libro de IA] en un motor de büs¬ 
queda y ver una lista de pâginas relevantes. En esta apartado, veremos como se construyen 
taies sistemas. Un sistema de la recuperacion de datos (en adelante RD) se puede ca- 
racterizar por: 


PREGUNTA 

LENGUAJE 
DE CONSULTA 


CONJUNTO 

RESULTADO 

RELEVANTE 


PRESENTACIÔN 


1. Una colecciôn del documento. Cada sistema debe decidir qué desea tratar 
como documento: un pârrafo, una pâgina, o un texto de mültiples pâginas. 

2. Una pregunta hecha en un lenguaje de consulta. La pregunta especifica lo que 
el usuario desea saber. El lenguaje de consulta puede ser justo una lista de pa¬ 
labras, por ejemplo [libro de IA]; o puede especificar una frase de las palabras 
que deben ser adyacentes, como en [«libro de IA»]; puede contener a operado- 
res boleanos como en [IA 7libro]; puede incluir a operadores no-Booleanos por 
ejemplo [libro NEAR IA] o [libro IA SITIO: www. aaai.org ]. 

3. Un conjunto resultado. Este es el subconjunto de los documentos que el sis¬ 
tema RD juzga relevantes para la consulta. Por relevante, significamos proba- 
blemente ser utilizada por la persona que hizo la pregunta, por la necesidad de 
informaciôn particular expresada en la consulta. 

4. Una presentaciôn del conjunto resultado. Esto puede ser tan simple como una 
lista alineada de tltulos de documento o tan complejo como un mapa de colo¬ 
res del conjunto resultado proyectado sobre un espacio tridimensional. 


Después de leer el capltulo anterior, uno podrfa suponer que un sistema de la recupera¬ 
cion de datos podrfa ser construido analizando la colecciôn de documentos en una base 
de conocimiento de frases lôgicas y después analizando cada consulta y preguntando a 
la base de conocimientos para las respuestas. Desafortunadamente, nadie ha tenido éxi- 
to total en la construcciôn de un sistema RD de gran escala. Es demasiado difîcil cons- 
truir un léxico y una gramâtica que cubra una gran colecciôn del documento, por ello 
todos los sistemas RD utilizan modelos de lenguaje mâs simples. 
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MODELO B00LEAN0 
DE LA PALABRA 
CLAVE 


MODELADO 
DEL LENGUAJE 


Los primeras sistemas RD trabajaban con un modelo booleano de la palabra cla- 
ve. Cada palabra en la colecciôn del documento se trata como caracteristica boleana que 
es verdad en un documento si la palabra se encuentra en el documento y falso si no lo 
hace. Por ello, la caracteristica «recuperaciôn» es verdad para el capitulo actual pero fal- 
sa para el Capitulo 15. El lenguaje de consulta es el lenguaje de las caracteristicas for- 
mando expresiones booleanas. Un documento es relevante solamente si la expresiôn 
évalua con verdad. Por ejemplo, la consulta [informacion Y recuperaciôn] es verdad para 
el capitulo actual y falsa para el Capitulo 15. 

Este modelo tiene la ventaja de ser simple de explicar e implementar. Sin embargo, 
tiene algunas desventajas. Primera, el grado de importancia de un documento es solo una 
pequena parte, asi que no indica como ordenar los documentos relevantes para la pre- 
sentaciôn. En segundo lugar, las expresiones booleanas pudieran ser desconocidas por 
los usuarios que no sean programadores o matemâticos. Tercero, puede ser dificil for¬ 
mulai - una consulta apropiada, incluso para un usuario experto. Suponga que intentamos 
[informacion Y recuperaciôn Y modelos Y optimizaciôn] y que obtenemos un conjunto 
vacio como resultado. Podriamos intentar [informacion O recuperaciôn O modelos U 
optimizaciôn], pero si devuelve demasiados resultados, es dificil saber qué intentar 
después. 

La mayoria de los modelos RD usan modelos basados en la estadistica de contado- 
res de palabra (y a veces otras caracteristicas de bajo nivel). Explicaremos un marco pro- 
babilistico que encaje bien en los modelos de lenguaje que hemos cubierto. La idea clave 
es que, dada una consulta, deseamos encontrar los documentos que tienen mas proba- 
bilidad de ser relevantes. Es decir deseamos calcular 

P (R = verdad \ D, Q) 

donde D es un documento, Q es una consulta y R es una variable booleana aleatoria que 
indica importancia. Una vez que tengamos esto, podemos aplicar el principio de la gra- 
duaciôn de la probabilidad, que dice que si tenemos présente el conjunto resultado como 
una lista ordenada, nosotros deberfamos hacerlo disminuyendo la probabilidad de im¬ 
portancia. 

Hay varias maneras de descomponer la distribuciôn conjunta P (R = verdad \ D, Q). 
Mostraremos la aproximaciôn conocida como modelado del lenguaje, que estima un 
modelo del lenguaje para cada documento y enfonces, para cada pregunta, computamos 
la probabilidad de la pregunta, dado el modelo del lenguaje de los documentos. Usan- 
do r para denotar el valor R = verdad, podemos reescribir la probabilidad como sigue: 

P(r | D,Q) = P(D, Q | /-) P(r)/P(D, Q ) (por régla de Bayes) 

= P(Q | D , r)P(D | r)P(r)/P(D, Q ) (por régla de la cadena) 

= a P(Q | D, r)P(r \ D)/P(D, Q ) (por régla de Bayes, para D fijo) 

Dijimos que intentâbamos maximizar P{r \ D , Q), pero, equivalentemente, podemos ma- 
ximizar el cociente de las probabilidades P(r \ D, Q)/P(^r \ D, Q ). Es decir, podemos or¬ 
denar los documentos basados en el resultado: 

P{r\D,Q) = P{Q | D, r)P{r \ D) 

P(-<r \D, Q) P(Q | D,->r)P(-ir \ D) 
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Esto tiene la ventaja de eliminar el término P(D, Q). Ahora asumiremos que para los do¬ 
cumentas irrelevantes, el documento es independiente de la consulta. Es decir, si un do¬ 
cumente es irrelevante para una pregunta, enfonces sabiendo que el documento no ayudarâ 
a contestar la pregunta, se élimina de la consulta. Esta asunciôn se puede expresar por 

P(D, Q | -r) = P(D | -/-) P(Q I - 7 -) 


Con la asunciôn, conseguimos 


BOLSA DE PALABRAS 


P(r\D,Q) 
P(pr\D,Q ) 


P(Q\D,r) X 


P(r\D) 
Pipr | D) 


El factor P(r \ D)/P(~r \ D ) es la probabilidad independiente de la consulta de que el do¬ 
cumento sea relevante. Esta es una medida de la calidad del documento; algunos docu¬ 
mentes son relevantes a cualquier consulta con mas probabilidad, porque el documento 
es intrfnsecamente de alta calidad. Para los artlculos de revistas académicas podemos es- 
timar la calidad por el nümero de citaciones, y para las paginas Web podemos utilizar 
el nümero de enlaces a la pagina. En cualquier caso, podrfamos dar mas peso a referen- 
cias de alta calidad. La antigüedad de un documento puede ser también un factor para 
estimar su importancia independientemente de la consulta. 

El primer factor, P(Q \ D, r), es la probabilidad de que una consulta de un documento 
sea relevante. Para estimar esta probabilidad debemos elegir un modelo de lenguaje de 
cômo se relacionan las consultas con los documentos relevantes. Una opciôn corriente 
es representar los documentos con un modelo de palabras unigram. Esto también se co¬ 
noce como modelo de RD boisa de palabras, porque lo significativo es la frecuencia 
de cada palabra en el documento, no su orden. En este modelo los documentos (muy cor- 
tos) «hombre muerde perro» y «perro muerde hombre» se comportarân idénticamente. 
Claramente, significan cosas diferentes, pero es verdad que son relevantes a consultas 
acerca de perro y morder. Ahora para calcular la probabilidad de una consulta dado un 
documento relevante, multiplicamos las probabilidades de las palabras en la consulta, 
segün el modelo unigram del documento. Este es un modelo sencillo de Bayes. Usando 
Qj para indicar la palabra j-ésima de la consulta, tenemos 


P(Q\D,r) = l\P(Q j \D,r) 

j 


Esto nos permite que hacer la simplificaciôn 


P(r\D,Q) 

P (—'r | D, Q) 


UjPlQjlD.r) 


P(r\D) 

P(~<r | D) 


Por ültimo, estamos preparados para aplicar estos modelos matemâticos a un ejemplo. 
La Figura 23.4 muestra la estadfstica del unigram para las palabras en la consulta [mo¬ 
delo de Bayes de recuperaciôn de datos] sobre una colecciôn del documento que con¬ 
siste en cinco capltulos seleccionados de este libro. Asumimos que los capitules son de 
calidad uniforme, asi que estamos interesados solamente en calcular la probabilidad de 
la consulta dado el documento, para cada documento. Hacemos esto dos veces, una vez 
usando el estimador mâximo de probabilidad D j sin suavizar y otra vez usando la pro¬ 
babilidad un modelo D\ con suavizado agregando uno. Se debe esperar que el capitulo 
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Palabras 

Pregunta 

Capitulo 1 
Introduccion 

Capitulo 13 
Incertidumbre 

Capitulo 15 
Tiempo 

Capitulo 22 
NLP 

Capitulo 23 
Actual 

Bayes 

1 

5 

32 

38 

0 

7 

Informacion 

1 

15 

18 

8 

12 

39 

Recuperacion 

1 

1 

1 

0 

0 

17 

Modelo 

1 

9 

7 

160 

9 

63 

N 

4 

14.680 

10.941 

18.186 

16.397 

12.574 

P(Q\D„ r) 
P(Q\D[,r) 


1,5 X 10~ 14 
4,1 X 10~ 14 

2,8 X 10~ 13 
7,0 X 10~ 13 

0 

5,2 X 10“ 13 

0 

1,7 X 10“ 15 

1,2 X 10“ n 
1,5 X 10“ n 


Figura 23.4 Un modelo probabilistico RD para la consulta [modelo Bayes recuperacion datos] 
sobre una colecciôn de documentas que consiste en cinco capftulos de este libro. Damos las fre- 
cuencias de apariciones de la palabra para cada par (documento, palabra) y N el contador total de 
palabras para cada documento. Utilizamos dos modelos de documentos (D j es el modelo de palabras 
unigram no suavizado del documento i-ésimo, y D \es el mismo modelo con suavizado agregando 
uno) y calculamos la probabilidad de la consulta dado cada documento para ambos modelos. El ca- 
pitulo actual (23) es el claro ganador, sobre 200 veces mâs probable que cualquier otro capitulo bajo 
cualquier modelo. 


actual tenga una respuesta alta para esta consulta, y de hecho en cualquiera de los mo¬ 
delos ocurre. 

El modelo suavizado tiene la ventaja de que es menos susceptible al mido y que pue- 
de asignar una probabilidad distinta a cero de la importancia en un documento que no 
contenga todas las palabras. El modelo sin suavizar tiene la ventaja de que es mâs fâcil 
calcular para las colecciones con muchos documentos: si creamos un indice que liste los 
documentos que mencionan cada palabra, después podemos generar râpidamente un re- 
sultado intersectando estas listas, y solamente necesitamos calcular P(Q \ D) para los do¬ 
cumentos de la interseccion, en vez de para cada documento. 

Evaluaciôn de los Sistemas de RD 

/ Cotrio sabemos si un sistema RD esta bien realizado? Emprendemos un experimento 
en el cual el sistema realice un conjunto de consultas y los conjuntos resultado son pun- 
tuados con respecto a criterios de relevancia para humanos. Tradicionalmente ha habi- 
do dos medidas usadas en la valoracion: memoria y précision. Las explicaremos con la 
ayuda de un ejemplo. Imaginese que un sistema RD ha devuelto un conjunto resultado 
para una sola pregunta, para la cual sabemos qué documentos son y cuâles no son rele¬ 
vantes, para un corpus de 100 documentos. Las cuentas del documento en cada catego- 
rfa se dan en la tabla siguiente: 



Estân en conjunto resultado 

No estân en conjunto resultado 

Relevante 

30 

20 

No relevante 

10 

40 
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La précision mide la proporcion de los documentos en el conjunto resultado que son ac- 
tualmente relevantes. En nuestro ejemplo, la précision es 30/(30 + 10) = 0,75. El por- 
centaje de falsos positivos es 1 — 0,75 = 0,25. La memoria mide la proporcion de todos 
los documentos relevantes en la coleccion que estân en el conjunto resultado. En nues¬ 
tro ejemplo, la memoria es 30/(30 + 20) = 0,60. El porcentaje de falsos negativos es 
1 — 0,60 = 0,40. En una coleccion de documentos muy grande, tal como el World Wide 
Web, la memoria es dificil de calcular, porque para la relevancia no hay manera fâcil de 
examinar cada pagina. Lo mejor que podemos hacer es o bien estimar la memoria mues- 
treando o ignorarla completamente. 

Un sistema puede compensar précision contra memoria. En el extremo, un sistema 
que devuelve cada documento de la coleccion como su conjunto resultado, garantiza la 
memoria al 100 por cien, pero tendra précision baja. De una forma alternativa, un siste¬ 
ma puede devolver un documento sencillo y tener baja memoria, pero una précision al 
100 por cien. Una forma para resumir esta compensaciôn es a través de una curva 
ROC. «ROC» significa «caracteristica de funcionamiento del receptor» (lo cual no esta 
muy claro). Es un grâfico que mide el porcentaje de falsos negativos en el eje y y de fal¬ 
sos positivos en el eje de x, para varios puntos de compensaciôn. El area debajo de la 
curva es un resumen de la eficacia de un sistema RD. 

Memoria y précision fueron definidas cuando se hicieron las büsquedas RD sobre 
todo por los bibliotecarios que estaban interesados en minuciosos resultados de estudio. 
Hoy, la mayoria de consultas (centenares de millones por dia) se hacen por los usuarios 
de Internet que estân menos interesados en la minuciosidad y mas interesados en encontrar 
una respuesta inmediata. Para ellos, una buena medida es la media de graduaciôn re- 
ciproca del primer resultado relevante. Es decir, si un primer resultado del sistema es 
relevante, consigue una puntuaciôn de 1 en la pregunta, y si los dos primeros no son re¬ 
levantes, pero el tercero si lo es, consigue una puntuaciôn de 1/3. Una medida alterna¬ 
tiva es el tiempo de respuesta, que mide cuânto tiempo lleva al usuario el hallazgo la 
respuesta deseada a un problema. Esto se acerca lo mas posible a lo que realmente de- 
seamos medir, pero tiene la desventaja de que cada experimento requiere actualizar los 
temas de prueba humanos. 


Refinamientos RD 

El modelo unigram de palabras trata todas las palabras como totalmente indépendan¬ 
tes, pero sabemos que algunas palabras estân correlacionadas: «sofâ» se relaciona de cerca 
con «sofâs» y «sofâ». Muchos sistemas RD procuran llevar la cuenta de estas correla- 
ciones. 

Por ejemplo, si la consulta es [sofâ], no se aceptaria excluir del conjunto resultado 
los documentos que mencionan «SOFÂ» o « sofâs» pero no «sofâ». La mayoria de los 
sistemas RD almacenan el caso «SOFÂ» con «sofâ» y muchos utilizan un algoritmo 
de procedencia que sirve para reducir «sofâs» a la forma del origen «sofâ». Tipicamente 
esto supone un pequeno aumento en memoria (del orden del 2 por ciento para el inglés). 
Sin embargo, puede danar la précision. Por ejemplo, la procedencia de «stocking» a 
«stock» tenderâ a disminuir la précision para las consultas sobre zapatos o instrumen- 
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tos financières, aunque podria mejorar la memoria para las consultas sobre el almace- 
namiento. Prévenir los algoritmos basados en réglas (por ejemplo, eliminar el ing) no pue- 
de evitar este problema, pero pueden hacerlo los algoritmos de procedencia mas recientes 
basados en diccionarios (no eliminar el ing si la palabra aparece ya en el diccionario). 
Mientras que la precedencia tiene un efecto pequeno en inglés, es mas importante en otros 
idiomas. En alemân, por ejemplo, es frecuente ver palabras como «Lebensversiche- 
rungsgesellschaftsangestellter» (empleado de compania de seguros de vida). Idiomas ta¬ 
ies como finlandés, turco, inuit y yupik tienen réglas morfolôgicas recursivas que en 
principio generan palabras de longitud ilimitada. 

El paso siguiente es reconocer sinônimos, por ejemplo «sofa» para «divan». Como 
con la procedencia, esto tiene el potencial para pequenos aumentos en memoria, pero 
con el peligro de disminuir la précision si se aplica demasiado agresivamente. Aque- 
llos interesados en el jugador del futbol Antonio Silla no desearian tener resultados so¬ 
bre sillas. El problema es que «los idiomas tratan los sinônimos tal como la naturaleza 
trata el vacfo» (Cruse, 1986). Es decir, siempre que hay dos palabras que significan la 
misma cosa, los hablantes conspiran para modificar los significados eliminando la 
confusion. 

Muchos sistemas RD utilizan bigrams de palabra a un cierto grado, aunque pocos 
ponen en ejecuciôn un modelo bigram probabilistico completo. Se pueden utilizar las 
rutinas de la correcciôn del deletreo para corregir los errores en documentos y consultas. 

Como refinamiento final, los RD pueden ser mejorados considerando datos-meta- 
datos exteriores al texto del documento. Los ejemplos incluyen palabras claves y enla¬ 
ces de hypertexto entre documentos proporcionados-por-los-humanos. 


Presentaciôn de los conjuntos de resultados 

El principio de graduaciôn de la probabilidad dice que un conjunto resultado se présen¬ 
te al usuario como lista ordenada por la probabilidad de la relevancia. Esto tiene senti- 
do si un usuario esta interesado en encontrar todos los documentos relevantes lo mas 
râpidamente posible. Pero funciona con problemas porque no considéra la utilidad. Por 
ejemplo, si hay dos copias del documento mas relevante de la colecciôn, enfonces una 
vez que usted haya visto el primera, el segundo tiene igual importancia, pero utilidad 
cero. Muchos sistemas RD tienen mecanismos para eliminar los resultados que son de¬ 
masiado similares a los resultados anteriores. 

Una de las maneras mas potentes de mejorar el funcionamiento de un sistema RD 
debe tener en cuenta la realimentaciôn de la relevancia, realimentaciôn del usuario di- 
ciendo qué documentos de un conjunto inicial de resultados son relevantes. El sistema 
puede enfonces presentar un segundo conjunto de resultados con los documentos que son 
similares a ésos. 

Una aproximaciôn alternativa es presentar el conjunto de resultados como ârbol eti- 
quetado en vez de una lista ordenada. Con la clasificaciôn del documento, los resulta¬ 
dos se clasifican en una taxonomia de tôpicos preexistentes. Por ejemplo, una colecciôn 
de historias noticias podria clasificarse en noticias del mundo, noticias locales, negocio, 
entretenimiento y déportés. Con el documento clustering, se créa el ârbol de categori- 
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as para cada conjunto de resultados. La clasificacion es apropiada cuando hay un numéro 
pequeno de asuntos en una colecciôn, y el clustering es apropiado para colecciones mas 
amplias taies como el World Wide Web. En cualquier caso, cuando el usuario realiza una 
consulta, el conjunto de resultados se muestra organizado en carpetas basadas en las ca- 
tegorfas. 

La clasificacion es un problema de aprendizaje supervisado, y como tal, se puede 
atacar con cualesquiera de los métodos del Capitulo 18. Una aproximacion popular es 
mediante ârboles de decision. Dado un sistema de entrenamiento de documentos eti- 
quetados con las categorfas correctas, podriamos construir un solo ârbol de decision en 
el que se asigna cada documento a la categoria apropiada. Esto funciona bien solamen- 
te cuando hay pocas categorias, pero para conjuntos de categorias mas grandes cons- 
truiremos un ârbol de decision para cada categoria, etiquetando el documento como un 
miembro o no miembro de la categoria. Generalmente, las caracteristicas probadas en 
cada nodo son palabras individuales. Por ejemplo, un nodo en el ârbol de la decision para 
la categoria «déportés» podria probarse para la presencia de la palabra «baloncesto». Los 
ârboles de decision, los modelos sencillos de Bayes y las mâquinas vectoriales han sido 
usados para clasificar texto; en muchos casos la exactitud estâ en el rango de 90-98 por 
ciento para clasificacion booleana. 

El clustering es un problema de aprendizaje no supervisado. En el Apartado 20.3 
vimos como el algoritmo EM se puede utilizar para mejorar una estimacion inicial de 
un clustering , basada en una mezcla del modelo Gaussiano. La tarea de clustering de 
documentos es mâs dura porque no sabemos qué datos fueron generados por un mode¬ 
lo gaussiano y porque estamos tratando un espacio de dimension mayor. Se han des- 
arrollado distintas aproximaciones. 

El clustering aglomerativo créa un ârbol de los clusters que van hacia abajo a do¬ 
cumentos individuales. El ârbol se puede podar en cualquier nivel para producir un nü- 
mero mâs pequeno de categorias, pero eso se considéra fuera del algoritmo. Comenzamos 
considerando cada documento como un cluster separado. Después encontramos los dos 
racimos que estân mâs cercanos el uno al otro segün una cierta medida de la distancia 
y combinamos estos dos racimos en uno. Repetimos el proceso hasta que permanece un 
racimo. La medida de la distancia entre dos documentos es una cierta medida del sola- 
pamiento entre las palabras en los documentos. Por ejemplo, podriamos representar un 
documento por un vector de los contadores de palabras, y définir la distancia como la 
distancia euclidea entre dos vectores. La medida de la distancia entre dos clusters pue¬ 
de ser la distancia al punto medio del cluster, o puede ser la distancia media entre los 
miembros de los clusters. El clustering aglomerativo tiene un coste temporal de 0(n 2 ), 
donde n es el nümero de documentos. 

El clustering K-medias créa un conjunto de piano exactamente k categorias. Tra- 
baja como sigue: 


1. Tomar k documentos al azar que representan las k categorias. 

2. Asignar cada documento a la categoria mâs cercana. 

3. Calcular la media de cada cluster y utilice las k médias para representar los nue- 
vos valores de las k categorias. 

4. Reperir los pasos (2) y (3) hasta convergencia. 
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K-medias tiene un coste temporal de 0{n), y le da ventaja sobre el clustering aglome- 
rativo. Se divulga a menudo que es menos exacto que el clustering aglomerativo, aun- 
que algunos autores dicen que lo puede hacer casi tan bien (Steinbach et al., 2000). 

Sin importar el algoritmo usado para el clustering, hay una tarea mas antes de que 
el clustering pueda ser utilizado para presentar el conjunto resultado: encontrando una 
buena manera de describir el cluster. En la clasificaciôn, los nombres de la categoria ya 
estân definidos (por ejemplo, las ganancias), pero en clustering necesitamos inventar los 
nombres de las categorias. Una forma de hacerlo es elegir una lista de las palabras que 
son representativas del cluster. Otra opciôn es elegir el titulo de uno o mas documentos 
cercanos al centro del cluster. 


Implementar sistemas RD 


PALABRAS 
DE PARADA 


INDICE INVERTIDO 

LISTAS DE ENLACE 


Hasta ahora hemos definido como los sistemas RD trabajan en abstracto, pero no hemos 
explicado como hacerlos eficientes de modo que un motor de büsqueda de la Web pue¬ 
da devolver los mejores resultados de una colecciôn multibillonaria de paginas en una 
décima de segundo. Las dos estructuras de datos claves para cualquier sistema RD son 
el léxico, que enumera todas las palabras de la colecciôn del documento, y el indice in- 
vertido, que enumera todos los lugares donde cada palabra aparece en la colecciôn del 
documento. 

El léxico es una estructura de datos que soporta una operaciôn: dada una palabra, 
devuelve la localizaciôn en el indice invertido que almacena las ocurrencias de la pala¬ 
bra. En algunas implementaciones también devuelve el nümero total de los documen¬ 
tos que contienen la palabra. El léxico se debe implementar con una tabla hash o una 
estructura de datos similar que permita que estas operaciones de büsqueda sean râpidas. 
A veces un conjunto de palabras comunes con poco contenido de informaciôn sera omi- 
tido del léxico, estas son las palabras de parada («el,» «de,» «a,» «ser,» «no,» «o,» etc.) 
se consideran espacio en el indice y no mejoran la puntuaciôn de los resultados. La üni- 
ca buena razôn de mantenerlos en el léxico es para los sistemas que soportan consultas 
de frase: es necesario un indice de las palabras de parada para recuperar eficientemen- 
te resultados de consultas como «ser o no ser». 

El indice invertido 3 , como el indice de la parte posterior de este libro, consiste en 
un conjunto de listas de enlace: lugares donde ocurre cada palabra. Para el modelo 
booleano de la palabra clave, una lista de enlace es justo una lista de documentos. Para 
el modelo unigram, es una lista de pares (documento, contador). Para apoyar la büsqueda 
de la frase, la lista de enlace debe también incluir las posiciones dentro de cada docu¬ 
mento donde ocurre la palabra. 

Cuando la consulta es de una sola palabra (el 26 por ciento de las veces, segün Sil- 
verstein et al. (1998)), el proceso es muy râpido. Para conseguir la direcciôn de la lista 
de éxitos hacemos büsquedas simples en el léxico, y entonces creamos una cola de prio- 


3 El lérmino (indice inverlido) es redundante; un término mejor séria juslo «indice». Es invertido en el sen- 
tido de que esta en diferente orden que las palabras en el texto, pero eso es como son todos los Indices. Sin 
embargo, el indice invertido es término tradicional en RD. 
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ridad vacia. Después de eso, pasamos a través de la lista de éxitos un documento cada 
vez y comprobamos el contador para el documento. Si la cola de la prioridad tiene me- 
nos elementos que R (donde R es el tamano deseado del conjunto resultado), agregamos 
el par (documento, contador) a la cola. Si no, si el contador es mas grande que el de la 
entrada mas baja en la cola de la prioridad, suprimimos la entrada mas baja y agrega¬ 
mos el nuevo par (documento, contador). Asi, contestar a la consulta tiene un coste tem¬ 
poral O (H + R log R), donde H es el nümero de documentas en la lista de éxitos. Cuando 
la pregunta tiene n palabras, tenemos que combinar las n listas de éxito, lo que se pue- 
de hacer con un coste 0(nH + R log R). 

Hemos presentado nuestra aproximacion teorica de RD usando el modelo probabi- 
listico porque ese modelo hace uso de las ideas que ya hemos utilizado para otros asun- 
tos. Pero los sistemas actuales de RD es mas probable que en la prâctica utilicen una 
modelo de ESPAcio aproximacion distinta llamada el modelo de espacio vectorial. Este modelo utiliza la 
misma boisa de palabras que el modelo de la probabilidad. Cada documento se repré¬ 
senta como vector de las frecuencias de las palabras del unigram. La consulta se repré¬ 
senta también exactamente de la misma manera; la consulta [modelo recuperaciôn datos 
Bayes ] se représenta como el vector 

[0,..., 1,0,..., 1,0,..., 1,0,..., 1,0,...] 

donde la idea es que hay una dimension para cada palabra en la coleccion del documento 
y la consulta consigue una puntuacion de 0 en cada dimension excepto las cuatro que 
aparecen realmente en la consulta. Los documentos relevantes son seleccionados en- 
contrando los vectores del documento que son los vecinos mas cercanos al vector de la 
consulta en el espacio vectorial. Una medida de la semejanza es el producto escalar en¬ 
tre el vector de la pregunta y el vector del documento; cuanto mas grande, mas cerca¬ 
nos estân los dos vectores. Algebraicamente, esto da valores altos para las palabras que 
aparecen con frecuencia en el documento y en la consulta. Geométricamente, el producto 
escalar entre dos vectores es igual al coseno del ângulo entre los vectores; la maximi- 
zacion del coseno de esos dos vectores (en el mismo cuadrante) significa que el ângulo 
entre ellos esta cerca de 0. 

Hay mucho mas que esto del modelo del espacio vectorial. En la prâctica, ha creci- 
do para acomodar una amplia variedad de caracteristicas, refinamientos, correcciones y 
adiciones. La idea bâsica de alinear documentos por su semejanza en un espacio vecto¬ 
rial permite encontrar nuevas ideas en el sistema numérico graduacion. Algunos argu- 
mentan que un modelo probabilistico permitiria las mismas manipulaciones y que se 
harfan en forma mâs general, pero los investigadores en RD son poco proclives a cam- 
biar a otro modelo a menos que puedan ver una ventaja clara respecto a otro modelo. 

Para obtener una idea de la magnitud del problema de la indexacion de direcciones 
para una tarea RD tipica, considéré una coleccion estândar del documento de la colec¬ 
cion del TREC (Text REtrieval Conférence) que consiste en 750.000 documentos que 
suman dos GB (gigabytes) de texto. El léxico contiene 500.000 palabras después de pro- 
cedencia y plegamiento del caso; estas palabras se pueden almacenar en un nümero de 
siete a 10 MB. El indice invertido con pares (documento, contador) usa 324 MB, aun- 
que se pueden utilizar técnicas de compresion para conseguir reducirlo a 83 MB. La com- 
presiôn ahorra espacio, aumentado levemente el coste de procesamiento. Sin embargo, 
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si la compresion permite que se mantenga el indice entero en memoria en vez de alma- 
cenarlo en disco, después proporcionarâ un aumento sustancial neto en rendimiento. La 
ayuda para las consultas de frase aumenta el tamano a cerca de 1.200 MB sin compri¬ 
mé o 600 MB con compresion. Los motores de büsqueda de la Web funcionan en una 
escala alrededor de 3.000 veces mas grande que esto. Muchos de los beneficios son los 
mismos, pero por ser impracticable tratar con terabytes de datos sobre un solo compu- 
tador, el indice se divide en k segmentos, con cada segmento almacenado en un com- 
putador distinto. Se envia en paralelo una pregunta a todos los computadores, y enfonces 
los k conjuntos de resultados se combinan en un solo conjunto resultado que se mues- 
tra al usuario. Los motores de büsqueda de la Web también tienen que ocuparse de mi- 
llares de consultas por segundo, asi que necesitan n copias de los k computadores. Los 
valores de k y de n continüan creciendo con el tiempo. 


Extraccion de la informacion 


La extraccion de la informacion es el proceso de crear entradas de la base de datos a 
partir de un texto y buscar ocurrencias de una clase particular de objeto o acontecimiento 
para las relaciones entre esos objetos y acontecimientos. Podriamos intentar extraer ins- 
tancias de direcciones de las paginas de la Web, con campos de la base de datos para la 
calle, la ciudad, el estado y el côdigo postal; o los casos de tormentas en informes del 
tiempo, con campos para la temperatura, velocidad del viento, y precipitacion. Los sis- 
temas de extraccion de informacion se sitüan a mitad de camino entre los sistemas de la 
recuperaciôn de datos y los programas de anâlisis completo del texto, en los que nece¬ 
sitan mas que un documento como boisa de palabras, pero menos que analizar totalmente 
cada frase. 

El tipo mas simple de sistema de extraccion de la informacion se llama un sistema 
basado en atributos porque asume que el texto entero se refiere a un solo objeto y la tarea 
es extraer cualidades de ese objeto. Por ejemplo, mencionamos en el Apartado 10.5 el 
problema de extraer del texto «monitor de 17 pulgadas SXGA por solamente 249,99 do- 
lares» las relaciones de la base de datos vienen dadas por 

3m m e ComputerMonitors a Size(m,pulgadas{ll)) a Precio(m, $(249,99)) 
a Resoluciôn(m, 1280 X 1024) 

Parte de esta informacion se puede manejar con la ayuda de expresiones regulares, que 
definen una gramâtica regular en una sola secuencia de texto. Las expresiones regula¬ 
res se utilizan en comandos de Unix taies como grep, en lenguajes de programacion como 
Perl y en procesadores de textos como Microsoft Word. Los detalles varfan levemente 
de una herramienta a otra y se aprenden mejor en el manual apropiado, pero aqui 
mostramos como construir una expresion regular para los precios en dôlares, mostran- 
do subexpresiones comunes: 

[0-9] empareja cualquier digito de 0 a 9 

[0-9] + empareja uno o mas digitos 

. [0-9] [0-9] empareja un punto décimal seguido por dos digitos 
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(. [0-9] [0-9] ) ? empareja un punto décimal seguido por dos digitos, o nada 

$ [0-9] + (. [0-9] [0-9] ) ? empareja249,99 dolares o 1,23 dolares o 1.000.000dolares o... 

Los sistemas de extracciôn basada en atributos pueden ser construidos como sériés de ex- 
presiones regulares, una para cada atributo. Si una expresion regular empareja el texto exac- 
tamente una vez, entonces podemos sacar la porciôn del texto que es el valor del atributo. 
Si no hay emparejamiento no hay nada mas que podamos hacer, pero si hay varios, nece- 
sitamos un proceso para elegir entre ellos. Una estrategia es tener varias expresiones re¬ 
gulares para cada atributo, ordenadas por prioridad. Asi pues, por ejemplo, la expresion 
regular de prioridad superior para el precio podria buscar la secuencia «nuestro precio» in- 
mediatamente antes del signo dôlar; si no se encuentra, caemos en una expresion regular 
menos fiable. Otra estrategia es tomar todos los emparejamientos y encontrar alguna ma- 
nera para elegir entre ellos. Por ejemplo, podriamos tomar el precio mas bajo que esta den- 
tro del 50 por ciento del precio mas alto. Esto manejarâ los textos como «el precio de lista 
99,00 dolares, el precio de venta especial 78,00 dolares, transporte 3,00 dolares». 

Un avance de los sistemas de la extracciôn basada en atributos son los sistemas de 
extracciôn relacionales, que tienen que preocuparse de mas de un objeto y de las rela- 
ciones entre ellos. Asi, cuando estos sistemas consideran el texto «249,49 dolares», ne- 
cesitan determinar no solo que es un precio, sino también qué objeto tiene ese precio. 
Un sistema de extracciôn relacional tipico es FASTUS, que maneja historias de noticias 
sobre fusiones y adquisiciones corporativas. Puede leer la historia: 

Bridgestone Sports Co. dijo el viemes que se ha instalado una empresa de riesgo com- 
partido en Taiwan con una agrupaciôn local y una casa japonesa para producir clubs de 
golf que se enviarân a Japon. 

y generar un registre de la base de datos como 

e e EmpresaDeRiesgoCompartido a Producto{e, «palo de golf») a Fecha{e, «Viemes») 
a Entidadie, «Bridgestone Sports Co») a Entidadie, «una agrupaciôn local») 
a Entidad(e, «una casa japonesa»). 

Los sistemas de extracciôn relacional se construyen a menudo usando transductores de 
estado fînito conectados en cascada. Es decir, consisten en una sérié de autômatas de 
estados finitos (FSAs), donde cada autômata recibe el texto como entrada, transforma 
el texto en un formata diferente, y lo pasa al siguiente autômata. Esto es apropiado por- 
que cada FSA puede ser eficiente y porque juntos pueden extraer la informaciôn nece- 
saria. Un sistema tipico es FASTUS, que consiste en las cinco etapas siguientes: 

1. Troceado 

2. Procesamiento de palabras complejas 

3. Procesamiento de grupos bâsicos 

4. Procesamiento de frases complejas 

5. Combinaciôn de estructuras 

La primera etapa de FASTUS es el troceado, que divide la entrada en segmentos de ca¬ 
ractères formando simbolos (palabras, nümero y signos de puntuaciôn). Para el inglés, 
el troceado puede ser bastante simple: los caractères de separaciôn son el espacio en blan- 
co o los signos de puntuaciôn permitiendo un trabajo bastante bueno. Para el japonés, 
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el troceado necesitarfa realizar la segmentacion, usando algo como el algoritmo de seg¬ 
mentacion de Viterbi (véase la Figura 23.1). Algunos troceadores tienen que ver con len- 
guajes de marcado taies como HTML, SGML y XML. 

La segunda etapa procesamiento de palabras complejas, incluyendo colocaciones 
taies como «empresa de riesgo compartido» asi como nombres propios por ejemplo «pri¬ 
mer ministro Tony Blair» y «Bridgestone Sports Co.». Éstos son reconocidos por una 
combinacion de entradas léxicas y de réglas gramâticales de estado finito. Por ejemplo, 
un nombre de compania se podrfa reconocer por la régla 

PalabraMayüscula + («Compania» | «Co» | «s.a.») 

Estas réglas se deben construir con cuidado y probar para memoria y précision. Un sis- 
tema comercial reconocio «présidente de Intel Andy Arboleda» como un lugar en vez 
de una persona debido a una régla de la forma 

PalabraMayüscula + («Arboleda» | «Bosque» | «Ciudad» | ...) 

La tercera etapa procesa grupos bâsicos, entendiendo como taies los grupos de sustan- 
tivos y los grupos de verbos. La idea es poner los trozos de estos grupos en las unida- 
des que serân manejadas por las fases posteriores. Un grupo de sustantivo consiste en 
un sustantivo principal, precedido opcionalmente por déterminantes y otros modifica- 
dores. Debido a que el grupo de sustantivo no incluye la complejidad compléta del FN 
en gj no necesitamos réglas recursivas de la gramâtica independiente del contexto: las 
réglas de la gramâtica regular permitidas en autômatas de estados finitos son suficien- 
tes. El grupo del verbo consiste en un verbo y sus auxiliares y adverbios asociados, pero 
sin los objetos directo e indirecto y las preposiciones. La frase del ejemplo saldria de 
esta etapa como sigue: 

1 NG: Bridgestone Sports Co. 

2 VG: dijo 

3 NG: el viernes 

4 NG: se 

5 VG: ha instalado 

6 NG: una empresa de riesgo compartido 

7 PR: en 

8 NG: Taiwan 

9 PR: con 

Aqui NG significa grupo de sustantivo, VG es grupo del verbo, PR es preposicion, y CJ 
es conjuncion. 

La cuarta etapa combina los grupos bâsicos en frases complejas. De nuevo, el ob- 
jetivo es tener réglas que sean de estado finito y se puedan procesar asi râpidamente, y 
que den lugar a frases inequivocas (o casi inequivocas). Un tipo de régla de combina¬ 
cion trata de acontecimientos especificos del dominio. Por ejemplo, la régla 

Compania + InstaladoEmpresaDeRiesgoCompartido («con» Compama+)? 

captura una manera de describir la formacion de una empresa de riesgo compartido. Esta 
etapa es la primera en la cascada donde la salida se pone en una plantilla de la base de 
datos y también se coloca en la secuencia de salida. 


10 

NG: 

una agrupacion loca 

11 

CJ: 

y 

12 

NG: 

una casa japonesa 

13 

VG: 

para producir 

14 

NG: 

palos de golf 

15 

VG: 

que se enviarân 

16 

PR: 

a 

17 

NG: 

Japon 
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La etapa final es la combinaciôn de estructuras que fueron acumuladas en el paso 
anterior. Si la frase siguiente dice «la empresa de riesgo compartido comenzarâ la pro- 
ducciôn en enero» entonces este paso determinarâ que hay dos referencias a riesgo 
compartido, y que deben ser combinadas en una. 

En general, la extracciôn de la informacion funciona bien para dominios restringi- 
dos en los cuales sea posible predeterminar qué temas serân discutidos, y como serân 
mencionados. Se ha probado ütilmente en ciertos dominios, pero no sustituye al proce- 
samiento del lenguaje natural a escala compléta. 


23.4 Traduccion automâtica 


La traduccion automâtica es la traduccion automâtica de un texto en un lenguaje natu¬ 
ral (la fuente) a otro (el objetivo, el destino final). Este proceso se ha demostrado que es 
ütil para un nümero de tareas, incluyendo las siguientes: 

1. Traduccion literal, en la que el objetivo es simplemente conseguir tomar la idea 
central de un trozo de texto. Las frases son gramaticalmente incorrectas y poco 
elegantes, pero se toleran con tal de que el significado sea claro. Por ejemplo, 
cuando se navega en la Web, un usuario a menudo queda satisfecho con una tra¬ 
duccion literal de una pâgina en una lengua extranjera. A veces una persona mo- 
nolingüe puede editar la salida sin tener que leer la fuente. Este tipo de traduccion 
automatizada ahorra dinero porque a los editores se les puede pagar menos que 
a los traductores bilingües. 

2. Traduccion de fuente-restringida, en donde la materia del asunto y el forma¬ 
ta del texto original estân severamente limitados. Uno de los ejemplos mâs 
acertados es el sistema TAUM-METEO, que traduce informes metereologicos 
del inglés al fiancés. Trabaja porque el lenguaje que se utiliza en este tipo de in¬ 
formes tiene un gran estilo y es regular. 

3 . Traduccion preeditada, en donde una persona preedita el documenta fuente para 
hacerlo concordar con un subconjunto restringido del inglés (o de cualquiera que 
sea la lengua original) antes de la traduccion automâtica. Este estudio es parti- 
cularmente rentable cuando hay necesidad de traducir un documento a varios 
idiomas, como es el caso de los documentos juridicos en la Comunidad Euro- 
pea o para empresas que venden el mismo producto en muchos paises. Los len- 
guajes restringidos a veces son llamados «Inglés Caterpillar» porque la empresa 
Caterpillar Corp. fue la primera empresa en intentar escribir sus manuales de esta 
manera. Xerox definiô un lenguaje para sus manuales de mantenimiento lo su- 
ficientemente simple para que pudiese ser traducido automâticamente a todos 
los idiomas a los que Xerox necesitaba que fueran traducidos. Como una ven- 
taja anadida, los manuales originales en inglés se hicieron también mâs claros. 

4. Traduccion literaria, donde todos los matices del texto original se preservan. 
Esto va mâs allâ de lo actualmente cubierto en el estado del arte de la traduc- 
ciôn automâtica. 
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Como ejemplo de traduccion literal, el sistema de traduccion SYSTRAN tradujo el pri¬ 
mer pârrafo de este capitulo, del italiano al inglés, de la siguiente forma: 


Italian: In capitolo 22 abbiamo visto 
corne un agente potrebbe comunicare con 
un altro agente (essere umano o soft¬ 
ware) che usando le espressioni in un lin- 
guaggio reciprocamente accordato. Com- 
pletare sintattico e l’analisi semantica 
delle espressioniè necessaria da estrarre 
il significato completo del utterances ed è 
possibile perché le espressioni sono corte 
e limitate ad un settore limitato. 


English: In chapter 22 we hâve seen 
as an agent could communicate with an 
other agent (to be human or software) that 
using the expressions in a language mu- 
tual corne to an agreement. Complété 
syntactic and the semantic analysis of the 
expressions is necessary to extract the 
complété meant one of the utterances and 
is possible because the expressions short 
and are limited to a dominion. 


La traduccion es dificil porque, en un caso general, requiere un conocimiento en profun- 
didad del texto, y éste a su vez requiere un conocimiento en profundidad de la situacion 
que se comunica. Esto es as! incluso para textos muy simples, incluso textos de una sola 
palabra. Consideremos la palabra «Open» en la puerta de un almacén 4 . Comunica la idea 
de que el almacén esta aceptando clientes en este momento. Consideremos de nuevo la mis- 
ma palabra «Open» en un gran cartel fuera de un almacén constmido recientemente. Sig- 
nifica que el almacén esta ahora abierto diariamente, pero los que lean esta palabra no se 
sentirân enganados si el almacén cierra por la noche sin quitar el cartel. Los dos rotulos 
usan la misma palabra con diferente significado. En Alemania, sin embargo, la palabra en 
la puerta puede ser «Offen» mientras que en el cartel se leerâ «Neu Erôffnet». 

El problema es que idiomas diferentes categorizan el mundo de manera diferente. Por 
ejemplo, la palabra francesa «doux» recoge un amplio rango de significados correspon- 
diente aproximadamente a las palabras inglesas «soft», «sweet», y «gentle». De forma 
similar, la palabra inglesa «hard» recoge virtualmente todos los usos de la palabra ale- 
mana «hart» (fisicamente récalcitrante, cruel) y algunos usos de la palabra «schwierig» 
(dificil). El verbo alemân «heilen» recoge los usos médicos de la palabra inglesa «cure», 
ademâs de los usos transitivos e intransitivos de «heal». Por tanto, representar el signifi¬ 
cado de una frase es mas dificil para la traduccion que la comprension de un lenguaje sen- 
cillo. Un sistema de anâlisis de un lenguaje sencillo puede usar predicados como Open(x), 
pero para la traduccion, el lenguaje de representacion tendria que tener mas distinciones, 
por ejemplo con Open t (x) representando el sentido «Offen» y Open 2 (x) representando el 
interlingua sentido «Neu Erôffnet». Se llama interlingua a un lenguaje de representacion que haga 

todas las distinciones necesarias para un conjunto de lenguajes. 

Para hacer una traduccion fluida, un traductor (humano o mâquina) debe leer el tex¬ 
to original, comprender la situacion a la cual se esta refiriendo, y encontrar el texto co- 
rrespondiente en el lenguaje destino que dé como resultado un buen trabajo de describir 
lo mismo o una situacion similar. A menudo, esto requiere una elecciôn. Por ejemplo, 
la palabra inglesa «you», cuando se refiere a una sola persona se puede traducir al fran- 
cés tanto por la palabra formai «vous» como por la informai «tu». No hay forma de re- 


4 Este ejemplo es debido a Martin Kay. 
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TRANSFERENCIA 


TRADUCCIÔN BASADA 
EN LA MEMORIA 


ferirse al concepto de «you» en francés sin hacer una eleccion de la manera formai o in¬ 
formai. Los traductores (tanto mâquinas como humanos) a veces encuentran dificulta- 
des para hacer esta eleccion. 

Sistemas de traducciôn automâticos 

Los sistemas de traducciôn automâticos varfan en el nivel con el que analizan el texto. 
Algunos sistemas intentan analizar el texto de entrada de principio a fin en una repre- 
sentaciôn interlingua (como hicimos en el Capitulo 22) y enfonces generan frases en el 
lenguaje de destino a partir de esa representaciôn. Esto es dificil porque incluye el pro- 
blema de la comprensiôn compléta del lenguaje como un subproblema, a lo que se ana- 
de la dificultad de tratar con una interlingua. Es un sistema frâgil porque si el anâlisis 
falla no se produce ningün resultado. Tiene la ventaja de que no hay ninguna parte del 
sistema que dependa del conocimiento de los dos idiomas a la vez. Esto significa que 
uno puede construir un sistema de interlingua para traducir n lenguajes con una com- 
plejidad de 0(n) en vez de 0(n 2 ). 

Otros sistemas se basan en una transferencia. Mantienen una base de datos de las ré¬ 
glas de traducciôn (o ejemplos) y en el momento en que la régla (o un ejemplo) se corres¬ 
ponde, lo traducen directamente. La transferencia puede darse a nivel semântico, sintâctico 
o léxico. Por ejemplo, una régla sintâctica estricta cambia el orden del inglés [Adjetivo Nom¬ 
bre] al francés [Nombre Adjetivo ]. Una régla mixta, sintâctica y léxica, cambia el francés 
[.S', «et puis» S 2 ] al inglés [.V, «and then» S 2 ]. A una transferencia que va directamente de 
una frase a otra se le llama método de traducciôn basado en la memoria, porque se basa 
en memorizar un gran conjunto de pares (inglés, francés). El método de transferencia es 
robusto porque siempre généra alguna salida y, al menos, alguna de las palabras tiene que 
ser correcta. La Figura 23.5 représenta los diferentes puntos de transferencia. 
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HANSARD 


MODELO 
DE LENGUAJE 


MODELO 
DE TRADUCCION 


Traducciôn automâtica estadistica 

A principios de los 60, se tuvo la gran esperanza de que los computadores fueran capa- 
ces de traducir de un lenguaje natural a otro tal y como el proyecto de Turing tradujo 
mensajes codificados en alemân a alemân comprensible. En 1966, parecia claro que una 
traducciôn fluida requerra una comprensiôn del significado del mensaje, mientras que 
descodificar el côdigo no. 

En la década pasada, hubo un cierto impulso hacia los sistemas de traducciôn au¬ 
tomâtica basados en métodos estadisticos. Por supuesto, cualquiera de los pasos des- 
critos en la Figura 23.5 se puede beneficiar de la aplicaciôn de datos estadisticos y de 
un modelo probabilistico claro de aquello que constituye un buen anâlisis o transferencia. 
Pero la «traducciôn automâtica estadistica» ha venido a denotar una aproximaciôn al 
problema de traducciôn completo, basada en encontrar la traducciôn mâs probable de 
una frase, usando datos recopilados de un corpus bilingüe. Como ejemplo de corpus 
bilingüe, Hansard 5 es una grabaciôn de un debate parlamentario. Canadâ, Hong Kong 
y otros paises utilizan Hansards bilingües, la Union Europea publica sus documentos 
oficiales en 11 idiomas, y las Naciones Unidas publican documentos de forma «multi- 
lingüe». Se ha demostrado que son recursos de gran valor para la traducciôn automâ¬ 
tica estadistica. 

Podemos expresar el problema de traducir una frase en inglés E, por ejemplo, a una 
frase en francés 6 F mediante la siguiente aplicaciôn de la régla de Bayes: 

argmax, P (F \ E) — argmax F P(E \ F)P(F)/P(E) 

= argrnax,; P(E \ F)P(F) 

Esta régla dice que deberiamos considerar todas las posibles frases en francés F y ele- 
gir aquella que maximiza el producto P(F | F)P(F). El factor P(E) puede ser ignorado 
porque es el mismo para cualquier F. El factor P(F) es el modelo de lenguaje para el 
francés; dice qué probabilidad hay de que una frase dada esté en francés. P(E \ F) es el 
modelo de traducciôn; dice qué probabilidad hay de que una frase en inglés sea una 
traducciôn de una determinada frase en francés. 

El lector astuto se preguntarâ qué hemos ganado al définir P(F \ E) en términos de 
P(E | F). En otras aplicaciones de la régla de Bayes hicimos lo inverso porque queria- 
mos usar un modelo causal. Por ejemplo, usamos el modelo causal P(Smtomas/Enfer- 
medad ) para calcular P(Enfermedad \ Smtomas). Con la traducciôn, en cambio, ninguna 
de las dos direcciones es mâs causal que la otra. La razôn de aplicar la régla de Bayes 
en este caso es que creemos que podemos aprender un modelo de lenguaje P(F) que es 
mâs preciso que el modelo de traducciôn P(E \ F) (y mâs preciso que estimar P (F \ E ) 
directamente). Esencialmente, hemos dividido el problema en dos partes: primero utili- 
zamos el modelo de traducciôn P(F \ E ) para encontrar frases francesas candidatas que 


5 Llamado después Guillermo Hansard, quien publicô por primera vez los debates parlamentarios britâni- 
cos en 1811. 

6 A lo largo de esta apartado consideramos el problema de traducir del inglés al francés. No debemos con- 
fundimos por el hecho de que la régla de Bayes nos conduce a considerar P(E \ F) en vez de P (F \ E), dando 
la impresion de que traducimos del francés al inglés. 
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mencionen los conceptos correctes de la frase en inglés, pero que podrfa no ser un fran- 
cés fluido; entonces usamos el modelo de lenguaje P (F) (para el cual tenemos estima- 
ciones de probabilidad mucho mejores) para elegir al mejor candidato. 

El modelo de lenguaje P(F) puede ser cualquier modelo que dé una probabilidad 
para una frase. Con un corpus muy grande podemos estimar P{F) directamente contan- 
do cuântas veces aparece cada frase en el corpus. Por ejemplo, si usamos la Web para 
recoger 100 millones de frases en francés, y si la frase «Clique ici» aparece 50.000 ve¬ 
ces, entonces P(Clique ici) es .0005. Pero incluso con 100 millones de ejemplos, mu- 
chas frases no aparecerân ninguna vez 7 . Por tanto, utilizaremos el modelo familiar de 
lenguaje bigram, en el que la probabilidad de una frase en francés consistente en las pa¬ 
labras es 

Necesitamos conocer las probabilidades bigram taies como P(Eiffel | tour) = .02. 
Esto recoge solo una nocion muy local de la sintaxis, donde una palabra dépende jus¬ 
te de la palabra anterior. Sin embargo, para una traduccion literal es a menudo sufi- 
ciente 8 . 

El modelo de traduccion P(E \ F) es mas diflcil de conseguir. Primero, no tenemos 
preparada una colecciôn de pares de frases (inglés, francés) con las que entrenar. Y ade- 
mâs, la complejidad del modelo es mayor ya que considéra el producto cruzado de fra¬ 
ses, mas que las frases individuales. Comenzaremos con un modelo de traduccion 
demasiado simplista y construiremos algo aproximado al «IBM Model 3» (Brown et al., 
1993) que podria parecer todavla demasiado simple, pero que ha demostrado generar tra- 
ducciones literales aceptables en la mitad de tiempo. 

El modelo demasiado simplista es «traducir una frase, solo traducir cada palabra in- 
dividual e independientemente, en orden de izquierda a derecha». Este es un modelo de 
eleccion de palabra unigram. Esto hace mas fâcil calcular la probabilidad de una tra¬ 
duccion: 


p(e\f) = i\UP(e,\f,) 

En pocas ocasiones este modelo trabaja bien. Por ejemplo, consideremos 

Pfthc dog | le chien) = P(the | le) X P(dog | chien) 

Bajo cualquier conjunto razonable de valores de probabilidad, «the dog» tendrfa la mâ- 
xima probabilidad de traduccion por «le chien». En la mayorfa de los casos, sin embar¬ 
go, el modelo falla. Un problema es el orden de las palabras. En francés «dog» es 
«chien» y «brown» es «brun» pero «brown dog» es «chien bmn». Otro problema es que 


7 Si hay solo 100.000 palabras en el léxico, el 99,99999 por ciento de las frases con très palabras tienen un 
cero la cuenta de 100 millones de frases del corpus. El resultado es peor para frases mâs largas. 

8 Para los puntos mâs finos de la traduccion P(f i claramente no es bastante. Por ejemplo, Marcel Proust 
en la pagina 3500 de la novela A la récherche du temps perdu comienza y termina con la misma palabra, asi 
que algunos traductores han decidido hacer lo mismo, basando la traduccion de una palabra en una que apa- 
reciô unos dos millones de palabras anteriormente. 
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la elecciôn de palabras no tiene por qué ser una correspondencia uno a uno con cada 
palabra, es decir, por ejemplo la palabra inglesa «home» a menudo se traduce por «à la 
maison», como una correspondencia de uno a très (o de très a uno en la otra direccion). 
A pesar de estos problemas, el «IBM Model 3» persistentemente sigue bâsicamente un 
modelo unigram, pero anade algunas complicaciones para mejorarlo. 
fertilidad Para manejar el hecho de que las palabras no se pueden traducir una a una, el mo¬ 

delo introduce la nociôn de fertilidad de una palabra. Una palabra con fertilidad n con- 
sigue ser copiada hasta n veces, y enfonces cada una de estas n copias se puede traducir 
independientemente. El modelo contiene parâmetros para P{Fertilidad — n \ palabra) 
para cada palabra en francés. Para traducir «à la maison» como «home» el modelo ele- 
giria fertilidad 0 para «à» y «la» y fertilidad 1 para «maison» y enfonces utilizar el mo¬ 
delo de traduccion unigram para traducir «maison» como «home». Esto parece 
suficientemente razonable: «à» y «la» son palabras de bajo contenido que pueden ra- 
zonablemente ser traducidas como nada. Traducir en la otra direccion es mas incierto. 
A la palabra «home» se le asignaria fertilidad 3, y da como resultado «home home 
home». El primer «home» se tiene que traducir como «à» el segundo como «la» y el 
tercero como «maison». En términos del modelo de traduccion, «à la maison» tendria 
la misma probabilidad que «maison la à». (Esta es la parte dudosa.) Séria tarea del mo¬ 
delo de lenguaje decidir cuâl es mejor. Puede parecer que tiene mas sentido traducir di- 
rectamente «home» a «à la maison» que hacerlo indirectamente via «home home 
home» pero eso requeriria muchos mas parâmetros, y séria mucho mas dificil de obte- 
ner a partir del corpus disponible. 

La parte final del modelo de traduccion es permutar las palabras a las posiciones 
correctas. Esto se hace mediante un modelo de compensaciôn por el cual una palabra 
se mueve desde su posicion original a su posicion final. Por ejemplo, al traducir «chien 
brun» como «brown dog», la palabra «brown» tiene una compensaciôn de +1 (se mue¬ 
ve una posicion a la derecha) y «dog» tiene una compensaciôn de — 1. Podemos ima- 
ginar que la compensaciôn sera dependiente de la palabra: los adjetivos como «brown» 
tenderân a tener una compensaciôn positiva porque el francés tiende a poner los adje¬ 
tivos después del sustantivo. Pero el «IBM Model 3» décidé que hacer compensacio- 
nes dependientes de la palabra requeriria demasiados parâmetros, por lo tanto la 
compensaciôn es independiente de la palabra y dépende solo de la posicion dentro de 
la frase, y de la longitud de las frases en ambos idiomas. Es decir, el modelo estima los 
parâmetros 

P {Compensaciôn = o \ Posicion = p, Lenlng = m, LenFr = n) 

Por tanto, para determinar la compensaciôn para «brown» dentro de «brown dog», con¬ 
sultâmes P {Compensaciôn | 1,2,2), que podria darnos, por ejemplo, +1 con probabili¬ 
dad .3 y 0 con probabilidad .7. El modelo de compensaciôn parece incluso mâs dudoso, 
como si se hubiera confeccionado por alguien mâs familiarizado con mover palabras mag- 
néticas alrededor de un frigorifico que con hablar en la actualidad un lenguaje natural. 
Veremos en seguida que fue disenado de esa manera, no porque fuera un buen modelo 
de lenguaje, sino porque hacia un uso razonable de los datos disponibles. En cualquier 
caso, debemos tener muy en cuenta que un modelo de traduccion médiocre puede con- 
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seguirse a partir de un buen modelo del idioma francés. Aquf hay un ejemplo que mues- 
tra todos los pasos en la traducciôn de una frase: 


Luente en francés: 

Le 

chien 

brun 

n’ 

est 

pas 

allé 

à 

la 

maison 

Modelo de fertilidad: 

1 

1 

1 

1 

1 

0 

1 

0 

0 

1 

Transformaciôn 











en francés: 

Le 

chien 

brun 

n’ 

est 


allé 



maison 

Modelo de elecciôn 











de palabra: 

The 

dog 

brown 

not 

did 


go 



home 

Modelo 











de compensaciôn: 

0 

+ 1 

-1 

+ 1 

-1 


0 



0 

Resultado en inglés: 

The 

brown 

dog 

did 

not 


go 



home 

Ahora, sabemos como calcular la probabilidad P (F 

|£) 

para cualquier par de frases 


(francés, inglés). Pero lo que realmente queremos hacer es, dada una frase en inglés, en- 
contrar la frase en francés que maximiza esa probabilidad. No podemos enumerar sim- 
plemente las frases; con 10 5 palabras en francés, hay 10 5 " frases de longitud n, y muchas 
combinaciones para cada una. Incluso si consideramos solamente las 10 traducciones pa- 
labra-por-palabra mas frecuentes para cada palabra, y solo consideramos compensacio- 
nes de 0 o ±1, obtendrfamos alrededor de 2" /2 10" frases, lo que significa que podriamos 
enumerarlas todas para n = 5, pero no para n — 10. En cambio, necesitamos buscar la 
mejor soluciôn. Una version de la büsqueda de A* que se ha comprobado que es efec- 
tiva puede verse en Germann et al. (2001). 

Probabilidades de aprendizaje para la traducciôn 
automâtica 

Hemos disenado un modelo para P (F \ E) que implica cuatro conjuntos de paramétras : 

Modelo de lenguaje: P(palabra i \palabra l _ ]) 

Modelo de fertilidad: P(Fertilidad = n \ palabra F ) 

Modelo de elecciôn de palabra: P{palabra E \ palabra F ) 

Modelo de compensaciôn: P {Compensaciôn = o \ pos, len E , len F ) 

Incluso con un vocabulario modesto de 1.000 palabras, este modelo requiere millones 
de paramétras. Obviamente, tenemos que aprenderlas a partir de los datos. Asumiremos 
que los ünicos datos disponibles para nosotros son un corpus bilingüe. A continuaciôn 
se muestra como usarlo: 

Segmentar en frases: la unidad de traducciôn es una frase, asf que tendremos que 
dividir el corpus en frases. Los puntos son indicadores évidentes del final de una frase, 
pero consideremos «el Dr. J. R. Smith de Rodeo Dr. llegô»; solo el punto final indica fi¬ 
nal de frase. La segmentaciôn de frases puede ser hecha con aproximadamente un 98 por 
ciento de précision. 

Estimar el modelo del lenguaje francés P(palabra i \ palabra considerando 
solo la mitad francesa del corpus, contar las frecuencias de pares de palabras y enfon¬ 
ces hacer un promedio para dar una estimaciôn de P{palabra i \ palabra t _ x ). Por ejemplo, 
podriamos tener PŒiffcl | tour) = .02. 
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VECTOR 

DE ALINEAMIENTO 
DE PALABRAS 


Alinear frases: para cada frase en la version inglesa, determinar qué frase(s) se co- 
rresponden con la version francesa. Normalmente, la siguiente frase de inglés corresponde 
a la siguiente frase de francés con una correspondencia 1:1, pero a veces hay alguna va- 
riaciôn: una frase en un lenguaje se dividirâ en una correspondencia 2:1, o el orden de 
dos frases se intercambiarâ, resultando una correspondencia 2:2. Mirando ünicamente 
las longitudes de las frases, es posible alinearlas (1:1, 1:2, o 2:2, etc.) con una précision 
entre el 90 y el 99 por ciento usando una variaciôn del algoritmo de segmentaciôn de 
Viterbi (Figura 23.1). Incluso se puede conseguir una mejor alineaciôn utilizando mar- 
cadores que son comunes en ambos lenguajes, taies como numéros o nombres propios, 
o palabras que sabemos que tienen una traduccion que no es ambigua a partir de un dic- 
cionario bilingüe. 

Ahora estamos preparados para estimar los paramétras del modelo de traduccion. Lo 
haremos primera haciendo una estimaciôn inicial pobre y después mejorândola. 

Estimar el modelo de fertilidad inicial PiFertilidad = n \ palabra F )\ dada una fra¬ 
se en francés de longitud m que esta alineada con una frase en inglés de longitud /;, con- 
sideramos esto como una evidencia de que cada palabra en francés tiene una fertilidad 
n/m. Considerar todas las evidencias sobre todas las frases para conseguir una distribu- 
ciôn de probabilidad de la fertilidad para cada palabra. 

Estimar el modelo de eleccion de palabra inicial P(palabra E \ palabra F )\ mirar to¬ 
das las frases francesas que contienen, por ejemplo «brun». Las palabras que aparecen 
mas frecuentemente en las frases del inglés alineadas con estas frases son las probables 
traducciones palabra a palabra de «brun». 

Estimar el modelo de compensaciôn inicial P {Compensaciôn — o \ pos, len E , len F ): 
ahora que tenemos el modelo de eleccion de palabra, lo usamos para estimar el modelo 
de compensaciôn. Para una frase en inglés de longitud n que esta alineada con una fra¬ 
se en francés de longitud m, miramos cada palabra francesa en la frase (en la posiciôn 
i) y cada palabra inglesa en la frase (en la posiciôn j ) que es una posible eleccion de pa¬ 
labra para la palabra francesa, y lo consideramos como una evidencia para P(Compen- 
saciôn = i-j \ i, n, m). 

Mejorar todas las estimaciones: utilizamos EM (esperanza-maximizaciôn) para me- 
jorar las estimaciones. La variable oculta sera un vector de alineamiento de palabras 
entre pares de frases alineadas. El vector da, para cada palabra inglesa, la posiciôn en la 
frase francesa de la correspondiente palabra francesa. Por ejemplo, podriamos tener lo 
siguiente: 

Fuente en francés: Le chien brun n’ est pas allé à la maison 

Resultado en inglés: The brown dog did not go home 

Alineamiento de palabras: 13 254 7 10 

Primera, usando las estimaciones actuales de los parâmetros, creamos un vector de ali¬ 
neamiento de palabra para cada par de frases. Esto nos permitirâ tener mejores estima¬ 
ciones. El modelo de fertilidad se estima contando cuântas veces un miembro del vector 
de alineamiento de palabra se corresponde a mültiples palabras o a cero palabras. El mo¬ 
delo de eleccion de palabra puede ahora mirar solamente las palabras que estân alinea¬ 
das a otras, mas que mirar todas las palabras de la frase, y el modelo de compensaciôn 
puede entonces mirar a cada posiciôn de la frase para ver cuântas veces se mueve de acuer- 



972 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


do con el vector de alineamiento de palabra. Desgraciadamente, no podemos saber con 
seguridad cuâl es el alineamiento correcto, y enfonces hay muchos de ellos que se pue- 
den enumerar. Por tanto, estamos forzados a buscar unos cuantos alineamientos de alta 
probabilidad y darles pesos a partir de sus probabilidades cuando recogemos la eviden- 
cia para nuevas estimaciones de paramétras. Esto es todo lo que necesitamos para el al- 
goritmo EM. A partir de parâmetros iniciales calculamos los alineamientos y a partir de 
estos alineamientos mejoramos las estimaciones de los parâmetros. Repetimos esto has- 
ta la convergencia. 


23.5 Resumen 


Los principales puntos de este capitulo son: 

1. Los modelos del lenguaje probabilisticos basados en //-grains recogen una can- 
tidad sorprendente de informacion sobre el lenguaje. 

2. Los CLGs pueden ampliarse a CLGs probabilisticos, haciendo mas fâcil el 
aprendizaje a partir de datos y mas fâcil también la no ambigüedad. 

3. Los sistemas de recuperaciôn de informacion usan un modelo del lenguaje muy 
simple basado en conjuntos de palabras, e intentan todavia manejarlos en tér- 
minos de memoria y précision en grandes trozos de texto. 

4. Los sistemas de extracciôn de informacion usan un modelo mâs complejo que 
incluye nociones limitadas de sintaxis y semântica. A menudo se implementan 
usando una cascada de automatas de estados finitos. 

5. Los sistemas de traducciôn automâtica se han implementado usando una gama 
de técnicas, desde el anâlisis sintâctico y/o semântico completo hasta técnicas 
estadisticas basadas en frecuencias de palabras. 

6 . Para construir un sistema estadistico del lenguaje, lo mejor es desarrollar un 
modelo que pueda hacer un buen uso de los datos disponibles, incluso si el mo¬ 
delo parece demasiado simple. 



Notas bibliogrâficas e histôricas 

Los modelos de carta /7-gram para el modelado del lenguaje fueron propuestos por 
Markov (1913). Claude Shannon (Shannon y Weaver, 1949) fue el primera en generar 
modelos de palabra //-grain del inglés. Chomsky (1956, 1957) précisé las limitaciones 
de los modelos de estados finitos comparados con los modelos de contexto libre, con- 
cluyendo que «los modelos probabilisticos no toman en consideraciôn algunos de los 
problemas bâsicos de la estructura sintâctica». Esto es cierto, pero ignora el hecho de 
que los modelos probabilisticos se introducen en algunos otros problemas bâsicos, 
problemas que los CLGs no consideran. Las conclusiones de Chomsky tuvieron el desa- 
fortunado efecto de alejar a mucha gente del modelo estadistico durante dos décadas, 
hasta que estos modelos volvieron a surgir para su uso en reconocimiento del habla 
(Jelinek, 1976). 
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GRAMÂTICAS 

PROBABIUSTICAS 

LEXICALIZADAS 


El suavizado suma-uno es debido a Jeffreys (1948), y el suavizado de interpolaciôn 
eliminada es debido a Jelinek y a Mercer (1980), que lo utilizaron para el reconocimien- 
to del habla. Otras técnicas incluyen el suavizado Witten-Bell (1991) y el suavizado Good- 
Turing (Church y Gale, 1991). Este ültimo también aparece frecuentemente en problemas 
de bioinformâtica. La bioestadistica y la probabilidad NLP estân acercândose, ya que tra- 
bajan con grandes secuencias estructuradas escogidas de un alfabeto de componentes. 

La carta simple /z-gram y los modelos de palabra no son los ünicos modelos proba- 
bilisticos posibles. Blei et al. (2001) describen un modelo de texto probabilistico llamado 
asignaciôn latente de Dirichlet que ve un documento como una mezcla de tôpicos, cada 
uno con su propia distribucion de palabras. Este modelo se puede considerar como una 
extension y racionalizacion del modelo indexado semântico latente (Deerwester et al., 
1990) (véase también Papadimitriou et al. (1998)) y esta también relacionado con el mo¬ 
delo de mezcla de causa multiple de (Sahami et al., 1996). 

Las gramàticas probabilisticas independientes del contexto (PCFGs) responden 
a todas las objeciones de Chomsky sobre los modelos probabilisticos, y presentan ven- 
tajas sobre los CFGs. Los PCFGs fueron investigados por Booth (1969) y Salomaa 
(1969). Jelinek (1969) présenta el algoritmo de decodificacion de pila, una variacion de 
la büsqueda de Viterbi que puede ser usada para encontrar el anâlisis mas probable con 
un PCFG. Baker (1979) introdujo el algoritmo de entrada-salida, y Lari y Young (1990) 
describieron sus usos y limitaciones. Charniak (1996) y Klein y Manning (2001) dis- 
cutieron el anâlisis con las gramàticas treebank. Stolcke y Omohundro (1994) mues- 
tran como aprender las réglas de gramâtica con un modelo de Combinacion Bayesiano. 
Otros algoritmos para PCFGs fueron presentados por Chamiak (1993) y por Manning 
y Schütze (1999). Collins (1999) realiza un examen de la situacion y da una explicaciôn 
de uno de los programas mas exitosos para el anâlisis estadistico. 

Desgraciadamente, los PCFGs se comportan peor que los modelos simples de /z-gram 
para una variedad de tareas porque los PCFGs no pueden representar la informacion aso- 
ciada con palabras individuales. Para corregir esta deficiencia varios autores (Collins, 
1996; Chamiak, 1997; Hwa, 1998) han introducido versiones de gramàticas probabi- 
listicas lexicalizadas, que combinan estadisticas de contexto libre y basadas en palabras. 

El Corpus Brown (Francis y Kucera, 1967) fue el primer esfuerzo de recoger un cor¬ 
pus equilibrado de texto de lenguaje empirico. Contenia alrededor de un millôn de pa¬ 
labras, etiquetadas con parte del discurso. Originalmente se almaceno en 100.000 tarjetas 
perforadas. El treebank Penn (Marcus et al., 1993) es una coleccion de aproximadamente 
1,6 millones de palabras, perforadas a mano en ârboles. Se almacena en un CD. El Cor¬ 
pus Nacional Britânico (Leech étal., 2001) se extiende a unos 100 millones de palabras. 
El World Wide Web tiene alrededor de un trillôn de palabras y se almacena en alrede¬ 
dor de 10 millones de servidores. 

El campo de recuperaciôn de informacion estâ experimentando un nuevo crecimiento 
en interés, marcado por el amplio uso de la büsqueda en Internet. Robertson (1977) da 
una primera aproximaciôn, e introduce el principio de ranking de probabilidad. Manning 
y Schütze (1999) dan una pequena introduccion al IR en el contexto de las aproximacio- 
nes estadisticas a NLP. Baeza-Yates y Ribeiro-Neto (1999) dan una descripcion de pro- 
posito general, sustituyendo anteriores clâsicos por Salton y McGill (1983) y por Frakes 
y Baeza-Yates (1992). El libro Managing Gigabytes (Witten et al., 1999) hace solo lo que 
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el titulo dice: explica como indexar eficientemente, comprimir y hacer consultas sobre 
un corpora de un rango de gigabytes. La conferencia TREC, organizada por el National 
Institute of Standards and Technology (NIST), del gobiemo de Estados Unidos, recoge 
una competiciôn anual de sistemas IR y publica actas con los resultados. En los prime¬ 
ras siete anos de concurso el rendimiento se ha doblado en términos generales. 

El modelo mas popular de IR es el modelo de espacio vectorial (Salton et al., 1975). 
El trabajo de Salton domino los primeras anos de este campo. Hay dos alternativas de 
modelos probabilfsticos. El primera que presentamos esta basado en el trabajo de Pon¬ 
te y Croft (1998). Modela la distribucion de probabilidad conjunta P(D, Q) en términos 
de P(Q | D). Un modelo alternativo (Maron y Kuhns, 1960; Robertson y Sparck Jones, 
1976) usa P(D \ Q). Lafferty y Zhai (2001) muestran que los modelos estân basados en 
la misma distribucion de probabilidad conjunta, pero que la elecciôn del modelo tiene 
implicaciones en la preparaciôn de paramétras. Nuestra presentaciôn se dériva de la suya. 
Turtle y Croft (1992) comparan los diferentes modelos IR. 

Brin y Page (1998) describen la implementacion de un motor de büsqueda para el 
World Wide Web, incluyendo el algoritmo PAGERANK, una medida de la calidad del 
documento independiente de la consulta basada en un anâlisis de enlaces Web. Klein¬ 
berg (1999) describe como encontrar fuentes autorizadas en la Web usando anâlisis de 
enlaces. Silverstein et al. (1998) investigan un conjunto de billones de büsquedas en la 
Web. Kukich (1992) analiza la literatura de la correcciôn de la escritura. Porter (1980) 
describe el algoritmo clâsico de procedencia basado en réglas, y Krovetz (1993) describe 
una version basada en diccionario. 

Manning y Schütze (1999) proporcionan una buena aproximaciôn de la clasificaciôn 
y agrupamiento de documentos. Joachims (2001) usa la teoria del aprendizaje estadisti- 
co y permite a las mâquinas vectoriales dar un anâlisis teôrico de cuândo una clasifica- 
ciôn tendrâ éxito. Apté et al. (1994) dan una précision del 96 por ciento al clasificar los 
articulos de noticias de Reuters en la categoria de «Ganancias». Koller y Sahami (1997) 
dan una précision de hasta el 95 por ciento usando un clasificador sencillo de Bayes, y 
hasta 98,6 por ciento usando otro clasificador de Bayes que tiene en cuenta algunas de- 
pendencias entre sus caracteristicas. Lewis (1998) hace una révision de 40 anos de la apli- 
caciôn de las técnicas sencillas de Bayes para la clasificaciôn y recuperaciôn del texto. 

La revista Information Retrieval y las actas de la conferencia anual SIGIR recogen 
la mayoria de los desarrollos recientes en este campo. 

Los programas de extraccion de informaciôn mâs antiguos incluyen a Gus (Bobrow 
et al., 1977) y a Frump (DeJong, 1982). Algunos de los disenos de los sistemas de ex¬ 
traccion de informaciôn modernos estân basados en las gramâticas de semântica de los 
anos 70 y 80. Por ejemplo, un interfaz de un sistema de réserva de aerolineas con una 
gramâtica semântica tendria categorias como Lugar y Volar Hacia en vez de FN y FV. 
Véase Birnbaum y Selfridge (1981) para una implementacion de un sistema de este tipo 
basado en gramâticas semânticas. 

La extraccion de informaciôn reciente ha sido impulsada por la Conferencia anual 
sobre Comprensiôn del Mensaje (MUC), patrocinada por el gobierno de Estados Uni- 
dos. El sistema FASTUS fue hecho por Hobbs et al. (1997); la colecciôn de articulos en 
los que aparece (Roche y Schabes, 1997) enumera otros sistemas que usan modelos de 
estado finitos. 
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En los anos 30 Petr Troyanskii solicité una patente para un «traductor automâtico» 
pero no habia computadores disponibles para implementar sus ideas. En marzo de 1947, 
la fundaciôn Warren Weaver Rockefeller escribio a Norbert Weiner, sugiriendo que la tra¬ 
ducciôn automâtica podrfa ser posible. Continuando con el trabajo en criptografia y teo- 
ria de la informacion, Weaver escribio, «cuando miro un articulo en ruso, digo: “Esto 
realmente esta escrito en inglés, pero lo han codificado con simbolos extranos. Ahora pro- 
cederé a decodificarlo”». En la década siguiente, la comunidad intenté decodificarlo de 
esta manera. IBM exhibiô un sistema rudimentario en 1954. Bar-Hillel (1960) y Locke 
y Booth (1955) describieron el entusiasmo de este periodo. La desilusiôn posterior con 
la traducciôn automâtica la describe Lindsay (1963), que también senala algunos de los 
obstâculos para la traducciôn automâtica relacionados con la interacciôn entre la sinta- 
xis y la semântica y con la necesidad de conocimiento del mundo. El gobiemo de Esta- 
dos Unidos se desanimo por la falta de progresos, y un informe (ALPAC, 1966) concluyé 
que «no hay ningün estudio inmediato o predecible de traducciôn automâtica ütil». Sin 
embargo, un cierto trabajo continué, y el sistema Systran fue desarrollado por las Fuer- 
zas Aéreas de Estados Unidos en 1970 y por la Comunidad Europea en 1976. El sistema 
de traducciôn del tiempo de Taum-Meteo también fue desarrollado en 1976 (Quinlan y 
O’Brien, 1992). A principios de los 80, la potencia de los computadores se habia incre- 
mentado hasta el punto de que los informes ALPAC ya no fueron correctos nunca mâs. 
Voorhees (1993) habia sobre algunas aplicaciones recientes de traducciôn basadas en 
Wordnet. Un libro bâsico de introducciôn viene dado por Hutchins y Somers (1992). 

La traducciôn automâtica estadistica se remonta a la nota de Weaver de 1947, pero 
solo al llegar a los anos 80 se llevô a la prâctica. Nuestra presentaciôn estâ basada en el 
trabajo de Brown y sus colegas en IBM (Brown et al., 1988, 1993). Es muy matemâti- 
co, por lo que el tutorial que acompana de Kevin Knight (1999) es un soplo de aire fres- 
co. Un trabajo mâs reciente sobre la traducciôn automâtica estadistica va mâs allâ el 
modelo bigram y pasa por modelos que incluyen alguna sintaxis (Yamada y Knight, 
2001). El trabajo mâs antiguo sobre segmentaciôn de frases fue hecho por Palmer y He- 
arst (1994). Michel y Plamondon (1996) abarcan el alineamiento bilingüe de frases. 

Hay dos libros excelentes sobre tratamiento probabilistico del lenguaje: Charniak 
(1993) es breve y puntual mientras que Manning y Schütze (1999) es comprensivo y ac- 
tualizado. El trabajo sobre tratamiento prâctico del lenguaje se présenta en la conferen- 
cia bianual Applied Natural Language Processing (ANLP), en la conferencia Empirical 
Methods in Natural Language Processing (EMNLP) y en la revista Natural Language 
Engineering. SIGIR patrocina un boletin de noticias y una conferencia anual sobre re- 
cuperaciôn de informacion. 




EJERCICIOS 

23.1 (Adaptado de Jurafsky y Martin (2000)). En este ejercicio desarrollaremos un cla- 
sificador para autenticidad: dado un texto, trataremos de determinar quién de entre dos 
candidatos autores escribio el texto. Obtener muestras de texto de dos autores diferen- 
tes. Separarlos en conjuntos de preparaciôn y de prueba. Ahora preparar un modelo de 
palabra unigram para cada autor del conjunto de preparaciôn. Finalmente, para cada con- 
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ESTILOMETRiA 



junto de pmeba, calcular su probabilidad de acuerdo con cada modelo unigram y asig- 
narla al modelo mas probable. Asegurarse de la précision de esta técnica. /Puede me- 
jorar su précision con caracteristicas adicionales? Este subcampo de la lingüistica se llama 
estilometri'a; sus éxitos incluyen la identifieacion del autor de Federalist Papers (Mos- 
teller y Wallace, 1964) y algunos trabajos litigados a Shakespeare (Foster, 1989). 

23.2 Este ejercicio explora la calidad de un modelo //-grain de lenguaje. Buscar o cre- 
ar un corpus monolingüe de alrededor de 100.000 palabras. Segmentarlo en palabras y 
calcular la frecuencia de cada palabra. /Cuantas palabras distintas hay? Dibujar la fre- 
cuencia de las palabras frente a su rango (primera, segunda, tercera...) en una escala log- 
logaritmica. Ademâs, contar las frecuencias de bigrams (dos palabras consecutivas) y 
trigrams (très palabras consecutivas). Ahora usar esas frecuencias para generar el len¬ 
guaje: a partir de los modelos unigram, bigram y trigram generar un texto de 100 pala¬ 
bras utilizando elecciones aleatorias de acuerdo con las frecuencias calculadas. Comparar 
los très textos generados con el lenguaje actual. Finalmente, calcular la perplejidad de 
cada modelo. 




23.3 Este ejercicio afecta a la detecciôn de un email de tipo spam. El spam se define 
como mensajes por email comerciales no solicitados que se envian en masa. Trabajar 
con el spam es un problema muy pesado para muchos usuarios de email, por lo que una 
manera segura de eliminarlos séria una alegria. Crear un corpus de email spam y otro 
corpus de email no spam. Examinar cada corpus y decidir qué caracteristicas parecen 
ser utiles para su clasificacion: ^palabras unigram?, /bigram? /Jongitud del mensaje, re- 
mitente, tiempo que tarda en llegar? Entonces preparar un algoritmo de clasificacion con 
(ârboles de decision, Bayes sencillo, y otros algoritmos de su elecciôn) sobre un con- 
junto preparado y dar un informe de su précision para un conjunto de pruebas. 

23.4 Crear un conjunto de prueba de cinco peticiones, y poner en prâctica estas peti- 
ciones en los très mayores motores de büsqueda de la Web. Evaluar cada una para una 
précision de uno, très y 10 documentos devueltos y para un ranking medio reciproco. 
Intentar explicar las diferencias. 

23.5 Tratar de asegurar cuâles de los motores de büsqueda del ejercicio anterior utili- 
zan categorias, procedencia, sinônimos y correcciôn de escritura. 

23.6 Estimar cuânto espacio de almacenamiento es necesario para el indice de un cor¬ 
pus de un billôn de paginas Web. Muestre las suposiciones que ha hecho. 

23.7 Escriba una expresiôn regular o un programa corto para extraer nombres de em- 
presas. Pruébelo en un corpus de articulos de noticias sobre negocios. Informe sobre el 
resultado y su précision. 

23.8 Seleccione cinco frases y envielas a un servicio de traducciôn online. Tradüzca- 
las del inglés a otro idioma y otra vez al inglés. Clasifique las frases résultantes por gra- 
maticalidad y preservaciôn del significado. Repita el proceso; /Jos resultados de la 
segunda ronda de iteraciones son peores resultados o son los mismos? /La elecciôn del 
lenguaje intermedio puede producir diferencias en la calidad de los resultados? 

23.9 Recoja algunos ejemplos de expresiones temporales, taies como «las dos en pun- 
to», «media noche» y «12:46». Piense también algunos ejemplos que no sean gramati- 
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cales, taies como «las trece en punto» o «las dos y cuarto y media». Escriba una gra- 
mâtica para el lenguaje temporal. 

23.10 (Adaptado de Knight (1999)). El modelo de traducciôn automâtica «IBM 
Model 3» asume que, después de que un modelo de elecciôn de palabra proponga una 
lista de palabras y el modelo de compensaciôn proponga posibles permutaciones de las 
palabras, el modelo de lenguaje puede elegir la mejor permutacion. Este ejercicio investiga 
la sensibilidad es esta suposiciôn. Trate de ordenar las siguientes frases propuestas en 
el orden correcto: 

• haber programando un visto nunca yo idioma mejor 

• ama john mary 

• es la comunicaciôn intercambio de intencional informaciôn promovida por sobre 
la production perception de y signos a partir de dibujo un de sistema signos con- 
vencional compartido. 

/ Cuâlcs se podrian hacer? / ; Qué tipo de conocimiento ha utilizado? Préparé un modelo 
bigram a partir del corpus de preparaciôn, y utilicelo para encontrar la permutacion de 
mayor probabilidad de algunas frases para el corpus de prueba. Informe sobre la préci¬ 
sion de este modelo. 

23.11 Si mira en un diccionario de inglés-francés, la traducciôn de «hear» es el verbo 
«entendre». Pero si prépara el modelo «IBM Model 3» del Hansard canadiense, la tra¬ 
ducciôn mas probable para «hear» es «Bravo». Explique por qué ocurre esto y estime 
cuâl es la distribuciôn de fertilidad que podrfa tener «hear». ( Ayuda: podria querer mirar 
algün texto Hansard. Intente con una büsqueda Web de [Hansard hear].) 





Percepcion 


Donde conectamos el computador con la cruda realidad. 


La percepcion proporciona a los agentes informacion sobre el mundo en el que ha- 
bitan. El proceso de percepcion se origina en los sensores. Un sensor es un dispositi- 
vo que capta algün aspecto del entorno y lo pasa como entrada al programa agente. El 
sensor puede ser tan simple como un sensor de un bit que détecta si un interruptor esta 
encendido o apagado o tan complejo como la retina del ojo humano, que contiene mas 
de 100 millones de elementos fotosensibles. En este capitulo, nos centraremos en la 
vision, ya que es con mucha diferencia el sentido mas ütil para desenvolverse en un 
mundo fisico. 


24.1 Introduccion 


Los agentes artificiales disponen de una gran variedad de modalidades de percepcion. 
Las que comparten con los humanos son la vision, el oido y el tacto. El oido, al menos 
en lo que respecta a la comprension del habla, fue tratado en el Apartado 15.6. El sen¬ 
tido del tacto se discute en el Capitulo 25, donde examinamos su uso en la habilidad de 
manipulaciôn de objetos por robots. El resto de este capitulo tratarâ la vision. Los ro¬ 
bots pueden tratar formas de percepcion de las que no disponemos los humanos, al me¬ 
nos sin ayuda, como son las ondas de radio, los infrarrojos, el GPS y las senales 
inalâmbricas. Algunos robots realizan una percepcion activa, lo que significa que en- 












980 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


GRÂFICOS POR 
COMPUTADOR 


vian una senal, de radar o de ultrasonido por ejemplo, y captan la reflexion de esta se¬ 
rial en el entorno. 

Un agente puede utilizar sus percepciones de dos formas. En el enfoque basado en 
la extracciôn de caracteristicas, los agentes detectan un pequeno numéro de caracte- 
risticas en su entrada sensorial y las pasan directamente a su programa agente, que pue¬ 
de responder de forma reactiva a ellas, o puede combinarlas con otra informacion. El agen¬ 
te wumpus trabajaba de este modo, con cinco sensores, cada uno de los cuales extraia 
una caracteristica de un bit. Se sabe que una mosca extrae caracteristicas del flujo ôpti- 
co y las envia directamente a los müsculos que la ayudan a orientarse, permitiéndole re- 
accionar y cambiar la direccion en 30 milisegundos. 

La alternativa es un enfoque basado en un modelo, en el cual el estimulo sensorial 
se utiliza para reconstruir un modelo del mundo. En esta aproximacion comenzamos con 
una funciôn/que realiza la correspondencia entre el estado del mundo, W, y el estimu¬ 
lo, S, que el mundo producirâ: 

S=f(W) 

La funcion/se define en términos fisicos y opticos, y se ha llegado a comprender bas- 
tante bien. Generar S a partir de/y un mundo real o imaginario W es un problema pro- 
pio de los grâficos por computador. La vision por computador es de alguna manera la 
inversa de los grâficos por computador: dados/y S, tratamos de computar W mediante 

W=f~\S ) 

Desafortunadamente, no es posible obtener una inversa adecuada para/. Por un lado, no 
es posible ver detrâs de los objetos, por lo que no podemos reconstmir todos los aspec- 
tos del mundo a partir del estimulo. Ademâs, incluso la parte que podemos ver es tre- 
mendamente ambigua: sin informacion adicional no es posible determinar si S es una 
imagen de un muneco de Godzilla destruyendo la maqueta de un edificio de unos po- 
cos centimetros de altura, o un monstruo real destruyendo un edificio de decenas de mé¬ 
tros. Podemos tratar algunas de estas cuestiones construyendo una distribucion de pro- 
babilidad sobre los mundos, en lugar de tratar de encontrar un ünico mundo: 

P(W) = P(W\S)P(S ) 

Un inconveniente aün mayor de este tipo de modelos es que tratan de resolver el pro¬ 
blema de una forma excesivamente complicada. Pensemos que en los grâficos por com¬ 
putador la generaciôn de un ünico fotograma de una pelicula puede suponer varias ho- 
ras de câlculos, que para cada segundo son necesarios 24 fotogramas, y que la obtencion 
de/ -1 es mucho mâs compleja que la de/. Estos câlculos son claramente excesivos para 
un supercomputador, y no digamos para una simple mosca que debe reaccionar en tiem- 
po real. Afortunadamente, el agente no necesita un modelo con el nivel de detalle usa- 
do en los grâficos por computador fotorrealistas. El agente solo necesita conocer si hay 
un tigre escondido entre la maleza, y no la localizaciôn y orientacion exactas de cada 
pelo de su lomo. 

En la mayor parte de este capitulo, trataremos de como reconocer objetos, taies como 
tigres, y veremos distintas formas de hacerlo sin representar cada uno de sus detalles. 
En el Apartado 24.2 estudiamos el proceso de foimaciôn de la imagen, definiendo al- 
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gunos aspectos de la funciôn/(VE). En primer lugar nos fijaremos en la geometria del 
proceso. Veremos que la luz se refleja en los objetos situados en la escena, e incide so¬ 
bre los puntos del piano de imagen del sensor del agente. La geometria explica por qué 
un objeto de gran tamano visto desde lejos es igual que otro pequeno con la misma for¬ 
ma visto a poca distancia. Después nos fijaremos en la fotometria del proceso, que des- 
cribe cômo la luz de la escena détermina el brillo de los puntos en la imagen. Juntos, ge¬ 
ometria y fotometria nos darân un modelo de cômo los objetos del mundo se plasman 
en una matriz bidimensional de pixeles. 

Una vez comprendido cômo se forman las imâgenes, pasaremos a ver cômo se pro- 
cesan. El flujo de informaciôn en el proceso visual tanto en humanos como en computa- 
dores puede dividirse en très fases. En la vision primitiva o de bajo nivel (Apartado 24.3) 
se suaviza la imagen original y se élimina el ruido, y se extraen las caracteristicas de la 
imagen bidimensional, en particular las aristas existentes entre regiones de la imagen. En 
la vision de nivel medio se agrupan estas aristas para formar regiones bidimensionales. 
En la vision de alto nivel (Apartado 24.4), las regiones bidimensionales son reconocidas 
como objetos reales del mundo (Apartado 24.5). Estudiaremos varios elementos clave en 
la imagen, taies como movimiento, vision estereoscôpica, texturas, sombreados y con- 
tornos, y los aprovecharemos para este fin. El reconocimiento de objetos es importante 
en la naturaleza para que un agente pueda detectar tigres, y es importante también para 
que los robots industriales puedan distinguir las tuercas de los tomillos. Por ültimo, el Apar¬ 
tado 24.6 describe cômo el reconocimiento de objetos puede ayudarnos a llevar a cabo 
tareas ütiles, taies como manipulaciôn y navegaciôn. La manipulaciôn significa ser ca- 
paz de agarrar y usar herramientas y otros objetos. La navegaciôn se refiere a la capaci- 
dad para moverse de un lugar a otro sin tropezar con nada. Teniendo en mente estas ta¬ 
reas podemos asegurar que un agente construye solo aquella parte del modelo que necesita 
para alcanzar sus me tas. 


Formacion de la imagen 


La vision recoge la luz reflejada por los objetos en la escena y créa una imagen bidi¬ 
mensional sobre un piano de imagen. El piano de imagen esta recubierto con material 
fotosensible: moléculas de rodopsina en la retina, haluro de plata en una pelicula foto- 
grâfica o una matriz CCD ( Charge-Coupled Device ) en una câmara digital. Cada pun- 
to de un CCD integra los electrones liberados por la absorciôn de fotones durante un perfo- 
do de tiempo establecido. En una câmara digital el piano de imagen se subdivide en una 
rejilla rectangular de unos pocos millones de pixeles. El ojo tiene una matriz de pixeles 
similar que consiste en unos 100 millones de bastoncillos y cinco millones de conos, dis- 
puestos en una malla hexagonal. 

La escena real es muy grande comparada con el pequeno piano de imagen, por lo 
que es necesario disponer de alguna forma de enfocar la luz sobre este piano. Esta la- 
bor se puede realizar con lentes o sin ellas. En cualquier caso, la clave esta en définir la 
geometria de manera que podamos decir dônde se encontrarâ cada punto de la escena 
sobre el piano de imagen. 
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Imâgenes sin lentes: la câmara de orificio o pinhole 

La manera mas sencilla de formar una imagen es con una câmara de orificio o pinho¬ 
le, que consiste en un orificio O, sobre el frontal de una caja, y un piano de imagen en 
la parte trasera de la misma (Figura 24.1). Utilizaremos un sistema de coordenadas tri- 
dimensional con el origen en O y consideraremos un punto P de la escena con coorde¬ 
nadas ( X, Y, Z). La proyeccion de P sobre el piano de imagen es el punto P' de coorde¬ 
nadas (x, y, z). Si / es la distancia del orificio al piano de imagen, por triângulos 
semejantes podemos derivar las siguientes ecuaciones: 

-x = X-y = 7 -fX -fY 

f r f Z ^ Z ’ ^ Z 

Estas ecuaciones definen el proceso de formacion de una imagen, conocido como pro- 
yecciôn perspectiva. Obsérvese que la Z del denominador significa que cuanto mas le- 
jano se encuentra el objeto, menor es su imagen. Observemos también que el signo ne- 
gativo significa que la imagen esta invertida, tanto de izquierda a derecha como de arriba 
abajo, en comparaciôn con la escena. 

Bajo una proyeccion perspectiva, las lineas paralelas convergen en un punto en el ho- 
rizonte (pensemos en los rafles de un tren). Veamos por qué ocurre esto. Una linea en la 
escena que pase por el punto (X 0 , Y 0 , Z 0 ) en la direcciôn (U, V, W) puede describirse como 
el conjunto de puntos (X 0 + À U, Y 0 + XV, Z 0 + ÀW), con À tomando valores entre — °° y 
+oo. La proyeccion de un punto PX de esta recta sobre el piano de imagen viene dada por 

*o +A U Y 0 +XV 
Z 0 + AW’ ^ Z 0 + ÀW 

Conforme À—»+°°oÀ—°°, este punto se convierte en p,, = ( fU/W, fV /VF) si W + 0. 
Llamamos a p a punto de fuga asociado a la familia de rectas con direcciôn (U, V, W). 
Las lmeas con la misma direcciôn comparten el mismo punto de fuga. 



Figura 24.1 Geometria de la formacion de imâgenes en una câmara de orificio. 
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Si el objeto tiene poca profundidad relativa, comparado con la distancia a la câma- 
ra, podemos aproximar la proyeccion perspectiva mediante una proyecciôn ortogrâfî- 
ca a escala. La idea es la siguiente: si la profundidad Z de los puntos del objeto varia 
dentro de un rango Z 0 ± AZ, con AZ « Zo, el factor de escala en perspectiva//Z pue- 
de aproximarse mediante una constante s = f/Z Q . Las ecuaciones para la proyeccion de 
las coordenadas de la escena (X, Y, Z) al piano de imagen se convierten en x = sX c y = sY. 
Obsérvese que la proyeccion ortogrâfica a escala es una aproximaciôn que es valida solo 
para aquellas partes de la escena con poca variaciôn de profundidad interna; no debe uti- 
lizarse para estudiar propiedades «globales». Un ejemplo para convencerse de la nece- 
sidad de precauciôn: bajo una proyecciôn ortogrâfica, las lineas paralelas permanecen 
paralelas en vez de converger en el punto de fuga. 


Sistemas de lentes 

Los ojos de los vertebrados y las câmaras modernas utilizan lentes. Una lente es mucho 
mayor que un orificio y permite la entrada de mas luz. Esto provoca que no toda la es¬ 
cena pueda estar perfectamente enfocada a la vez. La imagen de un objeto que se en- 
cuentra a distancia Z en la escena se produce a una distancia fija Z' de la lente, donde la 
relaciôn entre Z y Z' viene dada por la ecuaciôn de la lente 

1 1 _ 1 

Z + Z 7 = 7 

en la que/es la longitud focal de la lente. Dada una cierta distancia Z 0 ' elegida entre el 
punto nodal de la lente y el piano de imagen, los puntos de la escena con profundidad 
alrededor de Z 0 , donde Z 0 es la distancia al objeto, se visualizan razonablemente bien 
enfocados. A este rango de profundidades en una escena se le conoce como profundi¬ 
dad de campo. 

Obsérvese que, dado que la distancia Z al objeto es habitualmente mucho mayor que 
la distancia a la imagen Z' o /, a menu do se hace la siguiente aproximaciôn: 

1 1 _ 1 1 1 

Z + Z 7 ~Z 7 ^F~ 7 

De este modo la distancia a la imagen Z' ~ /. Por lo tanto podemos continuai - utilizan- 
do las ecuaciones de proyecciôn perspectiva de la câmara de orificio para describir la 
geometria de la formaciôn de imâgenes en un sistema con lentes. 

Para enfocar objetos que estân a diferentes distancias Z, la lente de un ojo (véase Figu¬ 
ra 24.2) cambia de forma, mientras que la lente de una câmara se mueve en direcciôn Z. 


Luz: la fotometria de la formaciôn de imâgenes 

La luz es un requisito imprescindible para la vision: sin luz, todas las imâgenes estarfan 
totalmente oscuras sin importar el interés de la escena. La fotometria es el estudio de 
la luz. Para nuestros propôsitos, consistirâ en modelar como la luz de la escena se co- 
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rresponde con la intensidad de luz en el piano de imagen a lo largo del tiempo, lo que 
denotaremos como I(x, y) 1 . Un sistema de vision aplica este modelo en sentido inverso, 
es decir, partiendo de la intensidad que la imagen pretende obtener de las propiedades 
del mundo real. La Figura 24.3 muestra una imagen digitalizada de una grapadora so¬ 
bre un escritorio, y un primer piano de un bloque de 12 X 12 pixeles extraido de la ima¬ 
gen de la grapadora. Un programa de computador que intente interpretar la imagen de- 
beria empezar con una matriz de valores de intensidad como esta. 

El brillo de un pixel en la imagen es proporcional a la cantidad de luz que llega a la 
câmara proveniente de la porciôn de superficie de la escena que se proyecta en ese pi- 





(a) 


(b) 


(c) 


Figura 24.3 (a) Una fotografia de una grapadora sobre un escritorio. (b) Vista aumentada de un 

bloque de 12 X 12 pfxeles de la imagen (a), (c) Los valores de intensidad de imagen asociados en 
una escala del 0 al 255. 


t 


Cuando nos interesen los cambios a lo largo del tiempo utilizaremos I(x, y, 


t). 






































PERCEPCIÔN 985 


REFLEXION 

ESPECULAR 


REFLEXION DIFUSA 


xel. Esta luz dépende a su vez de las propiedades reflectantes de la porcion de superfi¬ 
cie y de la posicion y distribucion de las fuentes de luz en la escena. También dépende 
en parte de las propiedades reflectantes del resto de la escena, ya que otras superficies 
pueden servir como fuentes de luz indirectas al reflejar la luz. 

Podemos modelar dos tipos diferentes de reflexion. La réflexion especular hace re- 
ferencia a la luz que es reflejada por la superficie exterior del objeto, y cumple la restricciôn 
de que el ângulo de réflexion de la luz es igual a su ângulo de incidencia. Este es el com- 
portamiento de un espejo perfecto. La réflexion difusa se produce cuando la luz pénétra 
la superficie del objeto, es absorbida por él, y luego es reemitida. Para una superficie per- 
fectamente difusora (o Lambertiana) la luz es emitida con igual intensidad en todas las 
direcciones. La intensidad dépende solo del ângulo de incidencia de la fuente de luz: una 
fuente de luz situada directamente sobre el objeto harâ que éste la refleje en su mayorfa, 
mientras que una fuente de luz que es casi paralela al objeto harâ que casi no se refleje 
luz. Entre estos dos extremos la intensidad de luz reflejada, /, obedece la ley del coseno 
de Lambert 

I = kl 0 cosd 

donde 7 0 es la intensidad de la fuente de luz, d es el ângulo entre la fuente de luz y la 
normal a la superficie, y k es una constante denominada albedo 2 , que dépende de las pro¬ 
piedades reflectantes de la superficie. Varia entre 0 (para superficies de color negro per¬ 
fecto) a 1 (para superficies de color blanco puro). 

En la vida real, las superficies presentan una combinacion de propiedades difusas y 
especulares. El modelado de esta combinacion es la esencia de los grâficos por compu- 
tador. La visualizaciôn de imâgenes realistas se lleva a cabo habitualmente mediante el 
trazado de rayos, que trata de simular el proceso fisico que realiza la luz que se origina 
en las fuentes de luz y se refleja una y otra vez sobre los objetos de la escena. 


Color: la espectrofotometrfa de la formaciôn 
de imâgenes 

En la Figura 24.3 mostrâbamos una imagen en blanco y negro que obvia el hecho de que 
la luz visible nos llega en un amplio rango de longitudes de onda (varfan desde 400 nm 
en el extremo violeta del espectro de luz hasta 700 nm en el extremo rojo). Algunas lu- 
ces estân formadas por una ünica longitud de onda pura y se corresponden con uno de 
los colores del arco iris. Pero las demâs luces son una mezcla de longitudes de onda. / Sig- 
nifica esto que necesitamos una mezcla de valores para un nivel de intensidad I(x, y) en 
vez de un ünico valor? Si quisiéramos representar la fisica de la luz de forma exacta, en 
efecto lo necesitarfamos. Pero si solo queremos reproducir la percepcion que los huma- 
nos (y otros muchos vertebrados) tenemos de la luz, podemos llegar a un compromiso. 
Algunos expérimentas (si nos remontamos a los trabajos de Thomas Young en 1801) han 
demostrado que cualquier mezcla de longitudes de onda, sin importar su complejidad, 
puede reproducirse con la mezcla de ünicamente très colores primarios. Es decir, si te- 


2 

Nota del traductor: Razôn enlre la energfa luminosa que difunde por reflexion una superficie y la energia 
incidente. 
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nemos un generador de luz que puede combinar de forma lineal très longitudes de onda 
(de forma habituai, se eligen el rojo (700 nm), el verde (546 nm) y el azul (436 nm)) en¬ 
fonces ajustando los valores para incrementar o decrementar la cantidad de cada color 
podemos obtener cualquier combinacion de longitudes de onda, desde el punto de vis- 
ta de la percepcion humana. Este hecho experimental supone que las imâgenes pueden 
representarse como un vector con ünicamente très valores de intensidad por pixel: uno 
para cada una de las très longitudes de onda primarias. En la prâctica, un byte para cada 
uno de estos valores résulta suficiente para una reproduccion de la imagen con una fi- 
delidad muy alta. Esta percepcion tricromâtica del color esta relacionada con el hecho 
de que la retina tiene très tipos de conos con picos mâximos de receptividad en 650 nm, 
530 nm y 430 nm respectivamente, aunque los detalles exactos del proceso son mas com- 
plejos que una simple relaciôn uno a uno. 


24.3 Operaciones de procesamiento de imagen 
a bajo nivel 


Hemos visto como la luz se refleja en los objetos de la escena para formar una imagen 
consistente en, por ejemplo, cinco millones de pixeles de très bytes. Como ocurre con 
cualquier sensor la imagen tendra ruido y, en cualquier caso, contendrâ mucha infor- 
macion que tratar. En esta seccion veremos qué hacer con los datos de la imagen para 
que sea mas fâcil tratar con ellos. En primer lugar veremos las operaciones de suaviza- 
do de la imagen para reducir el ruido, y las de deteccion de aristas en la imagen. Estas 
se conocen como operaciones de bajo nivel porque son las primeras en una secuencia 
de operaciones. Las operaciones de vision tempranas se caracterizan por su naturaleza 
local (pueden llevarse a cabo en una parte de la imagen sin preocuparse de lo que hay 
mas alla de unos cuantos pixeles) y por no necesitar la compresion de la escena: pode¬ 
mos suavizar una imagen y detectar sus aristas sin tener ni idea de los objetos que hay 
en la escena. Esto hace que las operaciones de bajo nivel sean candidatas perfectas para 
su implementacion sobre hardware paralelo, tanto directamente sobre el chip como me- 
diante una simulacion. A continuacion veremos una operaciôn de nivel medio, la seg- 
mentaciôn de imâgenes en regiones. Esta fase del proceso todavia opéra sobre la ima¬ 
gen, no sobre la escena, pero incluye procesamiento no local. 

En el Apartado 15.2, suavizar significaba predecir el valor de una variable de esta- 
do en algün momento t del pasado, dados sus valores en otros momentos desde t hasta 
el présente. Ahora aplicamos la misma idea al dominio espacial en vez de al temporal: 
suavizar significa predecir el valor de un pixel dados los pixeles de alrededor. Obsérve- 
se que debemos tener clara la diferencia entre el valor observado medido en el pixel, y 
el valor real que deberfamos haber medido en ese pixel. Este valor puede ser distinto de- 
bido a errores de medida aleatorios o debido a un fallo del sistema: el receptor en el CCD 
puede haber fallado. 

Una forma de suavizar una imagen es asignar a cada pixel la media de sus vecinos. 
Este procedimiento tenderâ a eliminar los valores extremos. Pero ^cuantos vecinos de- 
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bemos considerar, uno o dos o mas? Una soluciôn posible que funciona bien para eli- 
minar el ruido Gaussiano es una media ponderada utilizando el filtro Gaussiano. Re- 
cordemos que la funcion de Gauss con desviaciôn tipica cres: 


GJix) 



en una dimension, o 


GM’ y) 


___ „-(* 2 + /)/2 o - 2 

\Z2tto 2 


en dos dimensiones 


Aplicar un filtro Gaussiano significa reemplazar la intensidad 7(x 0 , y n ) con la suma, para 
todos los pixeles (x, y), de 7(x, y)GJd), donde cl es la distancia de (x 0 , v (l ) a (x, y). Este 
tipo de suma ponderada es tan comün que hay un nombre y una notaciôn especiales para 
ella. Decimos que la funcion h es la convoluciôn de dos funciones / y g (se dénota como 
h = f * g) si tenemos 

+ oo 

h(x) = V y( M ) g( x — u) en una dimension, o 

U=~ oo 
+ 00 +00 

h(x, y) = f(u, v) g(x — u, y - v) en dos dimensiones 

U=~ oo v=— oo 

Por lo tanto, la funcion de suavizado se realiza mediante una convoluciôn de la imagen 
con la Gaussiana, 7 * G a . Una crde un pixel es suficiente para suavizar pequenas canti- 
dades de mido, mientras que dos pixeles suavizarân una cantidad mucho mayor, pero 
con pérdida de algunos detalles. Dado que la influencia de la Gaussiana se desvanece 
con la distancia, en la prâctica podemos reemplazar el de los sumatorios por valo- 
res alrededor de ±3 a. 


Detecciôn de aristas 

El siguiente paso en la vision de bajo nivel es la detecciôn de aristas en el piano de ima¬ 
gen. Las aristas son lineas rectas o curvas en el piano de imagen que marcan un cam- 
bio «significativo» en el brillo de la imagen. El objetivo de la detecciôn de aristas es abs- 
traerse de la confusa imagen de varios megabytes y llegar a una representaciôn mas 
compacta y abstracta como la que se présenta en la Figura 24.4. La idea de partida es 
que los contornos formados por aristas de la imagen se corresponden con los contornos 
mas importantes de la escena. En la figura tenemos très ejemplos de discontinuidad en 
profundidad, etiquetados como 1 ; dos de discontinuidad en la orientaciôn de las super¬ 
ficies, etiquetados como 2; uno de discontinuidad en la reflectancia, etiquetado como 3 
y otro de discontinuidad en la iluminaciôn (sombra), etiquetada como 4. La detecciôn 
de aristas trata solo con la imagen, y por lo tanto no distingue estos tipos diferentes de 
discontinuidades en la escena, aunque un procesamiento posterior si lo harâ. 

La Figura 24.5(a) muestra una imagen de una escena que contiene una grapadora so¬ 
bre un escritorio, y (b) muestra la salida de un algoritmo de detecciôn de aristas para esta 
imagen. Como puede observarse, hay diferencias entre la salida y un dibujo con lineas 
idéal. Las aristas de los elementos mas pequenos no se alinean todas con las demâs, hay 
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Figura 24.4 Diferentes tipos de aristas: (1 ) discontinuidades en profundidad; (2) discontinuida- 
des en la orientaciôn de las superficies; (3) discontinuidades en reflectancia; (4) discontinuidades 
en iluminacion (sombras). 



discontinuidades entre las que no aparecen aristas, y hay algunas aristas que introducen 
ruido al no corresponderse con nada significativo de la escena. Etapas posteriores del pro- 
cesamiento tendrân que corregir estos errores. /Como detectamos aristas en una imagen? 
Consideremos el perfil de los valores de intensidad de una imagen a lo largo de una sec¬ 
tion unidimensional que cruce perpendicularmente una arista, por ejemplo, la que se en- 
cuentra entre el borde izquierdo del escritorio y la pared. Se parecerâ a algo como lo que 
se muestra en la Figura 24.6(a). La localizaciôn de la arista corresponde ax = 50. 

Puesto que las aristas se corresponden con zonas de la imagen en las que el brillo 
sufre un cambio brusco, una idea simplista séria diferenciar la imagen y buscar aque- 
llas zonas en las que la magnitud de la derivada /'(x) es grande. Esto casi funciona. 
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En la Figura 24.6(b), vemos que, aunque hay un pico en x = 50, hay también picos se- 
cundarios en otros lugares (por ejemplo, en x = 75) que pueden confundirse con aristas 
reales. Esto se produce por la presencia de ruido en la imagen. Si suavizamos la imagen 
en primer lugar, los picos falsos se reducen, como podemos ver en (c). 

Podemos aprovechar para realizar una optimizaciôn aqui: es posible combinar el sua- 
vizado y la detecciôn de aristas en una ünica operaciôn. Existe un teorema que nos dice 
que para cualquier par de funciones / y g, la derivada de la convoluciôn, (/ * g) ' , es igual 
a la convoluciôn de/con la derivada de g, f * (g)'. Por ello, en vez de suavizar la ima¬ 
gen y diferenciar después, podemos calcular la convoluciôn de la imagen con la deriva¬ 
da de la funciôn Gaussiana de suavizado, G' r . Asl, en una dimension el algoritmo de büs- 
queda de aristas es: 

1. Calcular la convoluciôn de la imagen I con G' a para obtener R. 

2. Marcar como aristas aquellos picos de ||/?(jc)|| que superan un umbral T prede- 
terminado. El umbral se elige de tal manera que se eliminen los picos falsos de- 
bidos al ruido. 

En dos dimensiones las aristas pueden encontrarse orientadas con cualquier ângulo 6. 
Para detectar aristas verticales, optaremos por una estrategia obvia: calcular la convo- 
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DETECCION DE 
ARISTAS DE CANNY 


SEGMENTACIÔN 


lucion con G'Jx)GJy). En la direcciôn y, el efecto es simplemente un suavizado (debi- 
do a la convolucion Gaussiana), y en la direcciôn x, el efecto es el de una diferenciaciôn 
acompanada con un suavizado. El algoritmo para detectar aristas verticales queda de la 
siguiente manera: 

1. Calcular la convolucion de la imagen f(x, y) con f v {x, y) = G' ir (x)G ir (y) para ob- 
tener R v (x, y). 

2. Marcar aquellos picos de ||/? v ,(x,y)|| que superan un umbral T predeterminado. 

Para detectar una arista con una orientaciôn arbitraria, necesitamos calcular la convolu¬ 
cion de la imagen con dos filtros: f v — G'JxjGJy) y f H — G' r (y)GJx), que es justamen- 
te f v rotado 90°. El algoritmo para detectar aristas con orientaciones arbitrarias queda 
de la siguiente manera: 

1. Calcular la convolucion de la imagen l{x,y) con f v (x,y) y f H (x,y ) para obtener 
R v (x,y) y R u (x,y), respectivamente. Definimos R(x,y) = R 2 v (x, y) + R 2 H {x, y). 

2. Marcar aquellos picos de \\R(x, y)|| que superan un umbral T predeterminado. 

Una vez que hemos marcado los pixeles de las aristas utilizando este algoritmo, la si¬ 
guiente etapa es unir aquellos pixeles que pertenecen a las mismas aristas. Se puede re- 
alizar asumiendo que dos pixeles vecinos cualesquiera que pertenezcan a las aristas y 
tengan orientaciones consistentes deben pertenecer a la misma arista. Este proceso se 
conoce como detecciôn de aristas de Canny, debido a su inventor John Canny. 

Una vez detectadas, las aristas forman la base de muchos procesos posteriores: po- 
demos utilizarlas para realizar procesos estereoscôpicos, detectar movimiento, o reco- 
nocer objetos. 


Segmentaciôn de la imagen 

Los humanos organizamos la entrada perceptual: en lugar de una colecciôn de valores 
de brillo asociados a fotorreceptores individuales, percibimos un numéro de gmpos vi- 
suales, asociados habitualmente con objetos o partes de objetos. Esta habilidad es igual- 
mente importante en la vision por computador. 

La segmentaciôn es el proceso de dividir la imagen en grupos, basado en las simi¬ 
litudes entre los pixeles. La idea bâsica es la siguiente: cada pixel de la imagen puede 
asociarse con ciertas propiedades visuales, taies como el brillo, el color y la textura 3 . Den- 
tro de un objeto, o de una parte del objeto, estos atributos varian relativamente poco, mien- 
tras que al cruzar los bordes entre objetos hay habitualmente un gran cambio en unos u 
otros de estos atributos. Necesitamos encontrar una particion de la imagen en conjun- 
tos de pixeles tal que estas restricciones se satisfagan lo mejor posible. 

Hay varias maneras de formalizar este proceso intuitivo de forma matemâtica. Por 
ejemplo, Shi y Malik (2000) lo plantean como un problema de particion de un grafo. Los 
nodos del grafo se corresponden con los pixeles, y las aristas con conexiones entre pi- 


3 


Las propiedades de textura se basan en estadlsticos medidos en pequenas areas centradas en el pixel. 
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xeles. El peso W tJ de la arista que conecta un par de pixeles i y j dépende de la similitud 
en brillo, color, textura, etc., existente entre los dos pixeles. Después se buscan las par- 
ticiones que minimizan un criterio de division normalizado. A groso modo, el criterio 
para dividir el grafo es minimizar la suma de los pesos de las conexiones entre grupos 
y maximizar la suma de los pesos de las conexiones dentro de los grupos. 

Una segmentacion basada ünicamente en atributos locales y de bajo nivel, taies 
como el brillo y el color, es un proceso expuesto a muchos errores. Para encontrar los 
bordes asociados a los objetos de una forma fiable, debemos incorporar también cono- 
cimiento de alto nivel referido a los tipos de objetos que esperamos encontrar en una es- 
cena. El formalismo del modelo de Markov Oculto se utiliza en este sentido para el re- 
conocimiento del habla; en el contexto de las imâgenes un marco de trabajo unificado 
de este tipo sigue siendo un campo de investigaciôn activo. En cualquier caso, el cono- 
cimiento de los objetos a alto nivel es el tema de la siguiente seccion. 


24.4 Extraccion de informacion tridimensional 


En esta seccion mostramos cômo pasar de una imagen bidimensional a una representa- 
ciôn tridimensional de la escena. Es importante el razonamiento sobre la escena, ya que, 
después de todo, el agente vive en el mundo real, no en el piano de imagen, y el objeti- 
vo de la vision es ser capaz de interactuar con los objetos del mundo. Sin embargo, la 
mayoria de los agentes necesita solo una representaciôn abstracta limitada de ciertos as- 
pectos de la escena, y no de cada detalle. Los algoritmos que hemos visto en el resto del 
libro para tratar con el mundo dependen de que tengamos una descripciôn concisa de 
los objetos, no enumeraciones exhaustivas de cada porciôn de la superficie tridimensional. 

En primer lugar trataremos el reconocimiento de objetos, el proceso de convertir 
las caracteristicas de la imagen (taies como las aristas) en modelos de objetos conoci- 
dos (taies como grapadoras). El reconocimiento de objetos se compone de très pasos: 
La segmentacion de la escena en objetos distintos, la determinaciôn de la posicion y la 
orientacion de cada objeto relativas al observador, y la determinaciôn de la forma de cada 
objeto. 

Averiguar la posicion y la orientacion de un objeto en relaciôn con el observador (la 
postura denominada postura del objeto) es de gran importancia para las tareas de manipulaciôn 

y navegaciôn. Para moverse a través del suelo de una fâbrica repleta de objetos y traba- 
jadores, se necesita conocer la localizaciôn de los obstâculos, de manera que podamos 
planificar una trayectoria que los évité. Si queremos recoger y agarrar un objeto, nece- 
sitamos conocer su posicion relativa a la mano, de manera que podamos generar una tra¬ 
yectoria de movimientos apropiada. Las acciones de manipulaciôn y navegaciôn se re- 
alizan habitualmente a través de un bucle de control de la posicion: la informacion 
sensorial proporciona una retroalimentaciôn para modificar el movimiento del robot, o 
el movimiento del brazo del robot. 

Especifiquemos la posicion y la orientacion en términos matemâticos. La posicion 
de un punto P en una escena viene caracterizada por très valores, las coordenadas ( X, Y, 
Z) de P en un sistema de coordenadas con su origen en el orificio de la câmara y el eje 


RECONOCIMIENTO DE 
OBJETOS 
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INCLINACION 

LADEO 

FORMA 


Z a lo largo del eje ôptico (Figura 24.1). De lo que disponemos es de la proyecciôn pers- 
pectiva del punto en la imagen (x,y). Esto define el rayo que parte del orificio y sobre el 
que se encuentra el punto P; lo que no conocemos es la distancia. El término «orienta¬ 
ciôn» podemos utilizarlo con dos sentidos: 

1 . La orientaciôn del objeto como un todo. Puede especificarse en términos de 
rotaciôn tridimensional relacionando su sistema de coordenadas con el de la câ- 
mara. 

2. La orientaciôn de la superficie del objeto en P. Puede especificarse median- 
te un vector normal n, es decir, un vector que define la direcciôn que es per- 
pendicular a la superficie. A menudo la orientaciôn de la superficie se expresa 
usando las variables inclinaciôn o slant y Iadeo o tilt. Inclinaciôn es el ângulo 
entre el eje Z y n. Ladeo es el ângulo entre el eje A y la proyecciôn de n en el 
piano de la imagen. 

Cuando la câmara se mueve con respecto a un objeto, la distancia al objeto y su posi- 
ciôn cambian. Lo que se préserva es la forma del objeto. Si el objeto es un cubo, este 
hecho no cambia cuando el objeto se mueve. Los geômetras han intentando formali- 
zar la forma de los objetos durante siglos, y es el concepto bâsico que la forma es lo 
que permanece sin cambios bajo un cierto grupo de transformaciones, por ejemplo, 
combinaciones de rotaciones y traslaciones. La dificultad estriba en encontrar una re- 
presentaciôn de la forma global del objeto que sea lo suficientemente general como 
para adaptarse a la amplia variedad de objetos del mundo real (no ünicamente formas 
simples como cilindros, conos y esferas) y que ademâs pueda obtenerse de forma sen- 
cilla a partir de una entrada visual. El problema de caracterizar la forma local de una 
superficie se conoce mucho mejor. En esencia, esta caracterizaciôn puede realizarse 
en términos de curvatura: qué cambio sufre la normal a la superficie conforme nos mo- 
vemos en diferentes direcciones sobre ella. Para un piano, no hay ningün cambio. Para 
un cilindro, si nos movemos de forma paralela a su eje, no hay cambio, pero en la di¬ 
reccion perpendicular, la normal a la superficie rota en una cantidad inversamente pro- 
porcional al radio del cilindro. Todo esto es objeto de estudio de la geometria dife- 
rencial. 

La forma de un objeto es relevante para algunas tareas de manipulaciôn (por ejem¬ 
plo, decidir de dônde agarrar un objeto), pero adquiere la mayor importancia en el re- 
conocimiento de objetos, donde la forma geométrica, junto con el color y la textura, pro- 
porciona las claves mas signifieativas para permitirnos identificar objetos, clasificar lo 
que hay en la imagen como un objeto de una clase que ya hemos visto antes, etc. 

La cuestiôn fundamental es la siguiente: dado que durante la proyecciôn perspecti- 
va todos los puntos del mundo tridimensional que se encuentran sobre el rayo que par¬ 
te del orificio de la câmara se han proyectado sobre el mismo punto de la imagen, 
/como recuperamos la informaciôn tridimensional? Hay un nümero de claves disponi¬ 
bles en los estimulos visuales para esta recuperaciôn, incluyendo el movimiento, la es- 
tereoscopia binocular, la textura, el sombreado y el contorno. Cada una de estas cla¬ 
ves se basa en unos supuestos bâsicos sobre las escenas fisicas para proporcionar 
interpretaciones no ambiguas (o casi). Discutimos cada una de estas claves en las cinco 
subsecciones siguientes. 
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FLUJO ÔPTICO 


SUMA DE LAS 
DIFERENCIAS AL 
CUADRADO 


CORRELACION 

CRUZADA 


Movimiento 

Hasta ahora hemos considerado una ünica imagen cada vez. Pero las videocâmaras cap- 
turan 30 fotogramas por segundo, y las diferencias entre fotogramas pueden ser una im¬ 
portante fuente de informacion. Si la câmara se mueve respecta a la escena tridimensional, 
el movimiento aparente résultante en la imagen se llama flujo ôptico. Este describe la 
direccion y la velocidad de movimiento de las caracteristicas de la imagen como resul- 
tado del movimiento relativo entre el observador y la escena. En la Figura 24.7(a) y (b), 
mostramos dos fotogramas de un video de un cubo de Rubik girando. En (c) se mues- 
tran los vectores del flujo ôptico calculados a partir de estas imâgenes. El flujo ôptico 
codifica informacion ütil sobre la estructura de la escena. Por ejemplo, cuando los ve- 
mos desde un automôvil en movimiento, los objetos lejanos tienen un movimiento apa¬ 
rente mucho menor que los que estân mas cercanos; por lo tanto, la cantidad de movi¬ 
miento aparente nos puede decir algo sobre la distancia. 

El campo vectorial del flujo ôptico puede representarse a través de sus componen- 
tes v/x, y) en la direccion x y v y (x, y) en la direccion y. Para medir el flujo ôptico, ne- 
cesitamos encontrar los puntos correspondientes entre un fotograma y el siguiente. 
Aprovechamos el hecho de que las zonas de la imagen alrededor de los puntos que se 
corresponden tienen patrones de intensidad similares. Consideremos un bloque de pi- 
xeles centrados en el pixel p, (x 0 , y 0 ) en el momento t 0 . Este bloque de pixeles debe com- 
pararse con bloques de pixeles centrados en varios pixeles candidatos cp que se encuen- 
tran en (x 0 + D x , y 0 + D y ) en el momento t 0 + D r Una posible medida de similitud es 
la suma de las diferencias al cuadrado (SDC): 

SDC(D à , D) = X (7(x, y, fl - /(x + D, y + D y ,t + D)f 

(*.y) 

Aqui, (x, y) va tomando valores dentro de los pixeles del bloque centrado en (x 0 , y 0 ). Bus- 
camos el valor de (D x , D) que minimice SDC. El flujo ôptico en (x 0 , y 0 ) es enfonces (v x , 
v y )=(D x /D t , DjD). Otra alternativa es maximizar la correlaciôn cruzada: 

Correlaciôn(D x , D y ) = X U(x, y, fl /(* + D x , y + D y , t + D t ) 

(x, y) 



Figura 24.7 (a) Un cubo de Rubik en una mesa rotatoria. (b) El mismo cubo, mostrado 19/30 se- 

gundos después. (Cortesia de Richard Szeliski.) (c) Vectores de flujo calculados comparando las 
dos imâgenes de (a) y (b). (Cortesia de Joe Weber y Jitendra Malik.) 
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EGOMOVIMIENTO 


FOCO DE EXPANSION 


La correlacion cruzada trabaja mejor cuando hay textura en la escena, y résulta en 
una ventana que contiene variaciones signifieativas de brillo entre los pixeles. Si mi- 
ramos a un muro blanco uniforme, la correlacion cruzada sera casi la misma para los 
diferentes puntos q candidatos a ser emparejados, y el algoritmo se reduce a adivinar 
a ciegas. 

Supongamos que el observador tiene una velocidad traslacional T y una velocidad 
angular co (que describe de esta manera el movimiento del observador o egomovi- 
miento). Podemos derivar una ecuaciôn que relacione las velocidades del observador, 
el flujo optico, y las posiciones de los objetos en la escena. Suponiendo que / = 1, se 
sigue que: 


v x (x, y) = 
Vy(X, y) = 


T, 

Z(x, y) 

T y 

Z(x, y) 


- co y + coj 

— COJ + co x 


T z 

Z(x, y) 
T- 

Z(x, y) 


COJ + co y x 
COJ + COJ 


donde Z(xj ) da la coordenada z del punto de la escena correspondiente al punto en la 
imagen (x,y). 

Se puede entender de forma intuitiva si consideramos el caso de una traslaciôn pura. 
En este caso, el campo de flujo es 


v v (x, y) 


~T X + *T Z 
Z(x, y) 


v y (x, y) 


-T y + yT z 
Z(x, y) 


Ahora algunas propiedades interesentes salen a la luz. Ambos componentes del flujo ôp- 
tico, v x (x, y) y v y (x, y), son cero en el punto x = T x /T_, y = T y /T_. Este punto se déno¬ 
mma foco de expansion del campo de flujo. Supongamos que cambiamos el origen en 
el piano x-y para que se encuentre en el foco de expansion; entonces las expresiones para 
el flujo optico toman una forma particular muy simple. Sean (x', y') las nuevas coorde- 
nadas definidas por x' = x — TjT z , y' = y — T /T_. Entonces 


v ^ y ' ) = z^ 


v,(x\y') 


y% 

Z(x', y') 


Esta ecuaciôn tiene algunas aplicaciones interesantes. Supongamos que somos una mos- 
ca intentando aterrizar sobre un muro y queremos saber el tiempo para tomar contacto 
a la velocidad actual. Este tiempo viene dado por Z/ T_. Obsérvese que aunque el cam¬ 
po de flujo optico instantâneo no puede proporcionar la distancia Z o la componente T. 
de la velocidad, si puede proporcionar la razôn entre las dos y puede, por lo tanto, uti- 
lizarse para controlar la aproximaciôn al aterrizar. Diversos experimentos con moscas 
reales han demostrado que este es exactamente el mecanismo que ellas usan. Las mos¬ 
cas son los voladores mas diestros de entre todos los animales o mâquinas, y es intere- 
sante constatar que lo hacen con un sistema de vision que tiene una resoluciôn espacial 
muy pobre (tienen solo unos 600 receptores frente a los 100 millones de los humanos) 
pero una resoluciôn temporal espectacular. 
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Para recuperar la profundidad, debemos hacer uso de mültiples fotogramas. Si una 
câmara mira hacia un cuerpo rfgido, la forma no cambia de un fotograma a otro, y por 
lo tanto somos capaces de manejar mejor las medidas del flujo optico que son intrinse- 
camente ruidosas. Los resultados de un enfoque de este tipo debido a Tomasi y Kanade 
(1992) se muestran en las Figuras 24.8 y 24.9. 



Figura 24.8 (a) Cuatro fotogramas de una secuencia de video en la que la câmara se mueve 

y gira con respecto al objeto. (b) El primer fotograma de la secuencia, con pequenos cuadrados 
que senalan las caracteristicas encontradas por el detector de caracterîsticas. (Cortesia de Carlo 
Tomasi.) 



(a) (b) 


Figura 24.9 (a) Reconstrucciôn tridimensional de las posiciones de las caracteristicas de la 

imagen de la Figura 24.8, vista desde arriba. (b) La casa en realidad, tomada desde la misma 
posiciôn. 
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ESTEREOSCOPIA 

BINOCULAR 


DISPARIDAD 


Estereoscopia binocular 

La mayorîa de los vertebrados tienen dos ojos. Esto es ütil en el caso de la pérdida de 
un ojo por la redundancia que supone, pero también supone una ayuda en otras ocasio- 
nes. La mayoria de los animales que sirven de presa tienen ojos a los lados de la cabe- 
za para permitir un campo de vision mas amplio. Los depredadores, sin embargo, tie¬ 
nen los ojos en la parte delantera, para permitirles utilizar la estereoscopia binocular. 
La idea es similar a la de paralaje por movimiento * * 4 , excepto en que en vez de utilizar el 
movimiento a lo largo del tiempo, utilizamos dos (o mas) imâgenes separadas en el es- 
pacio, tal y como las proporcionan los ojos de los humanos situados en la parte delan¬ 
tera de la cara. Puesto que un elemento dado de la escena estarâ en diferente lugar en 
relacion con el eje z de cada piano de imagen, si superponemos las dos imâgenes habrâ 
una disparidad en la localizacion del elemento en las dos imâgenes. Podemos verlo en 
la Figura 24.10, donde el punto mâs cercano de la pirâmide estâ desplazado a la izquierda 
en la imagen derecha y a la derecha en la imagen izquierda. 

Calculemos la relacion geométrica entre la disparidad y la profundidad. En primer 
lugar consideraremos el caso en el que ambos ojos (o câmaras) estân mirando hacia de- 
lante con sus ejes opticos paralelos. La relacion de la câmara derecha con la izquierda 
es solamente una traslacion a lo largo del eje x una cantidad b, la lfnea base. Podemos 
utilizar las ecuaciones del flujo optico de la secciôn anterior para computar las dispari- 
dades horizontal y vertical como H = v x A t, V = v v A t, dado que T x = b/At y T y = T, = 0. 



Figura 24.10 Idea de la estereoscopia: las diferencias en las posiciones de las câmaras producen 

vistas bidimensionales de la misma escena tridimensional ligeramente distintas. 


4 Nota del traductor: Diferencia entre las posiciones de los objetos en el tiempo. Generalmente utilizada en 
Astronomîa. 
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ENFQQUE 


LI'NEA BASE 


TEXTURA 


Los paramétras rotacionales œ x , co y y œ z son cero. Se obtiene que H = b/Z, V = 0. En 
palabras, la disparidad horizontal es igual a la division de la linea base entre la profun- 
didad, y la disparidad vertical es cero. 

Bajo condiciones visuales normales, los humanos enfocamos; es decir, hay algün pun- 
to en la escena en el que los ejes opticos de los dos ojos intersectan. La Figura 24.11 
muestra dos ojos enfocados en un punto P Q , que esta a una distancia Z del punto medio 
entre los dos ojos. Por conveniencia, calcularemos la disparidad angular, medida en ra- 
dianes. La disparidad en el punto enfocado P 0 es cero. Para cualquier otro punto P de la 
escena que se encuentra a una distancia 8Z del anterior, podemos calcular los desplaza- 
mientos angulares de las imâgenes izquierda y derecha de P, que llamaremos P L y P R , 
respectivamente. Si cada uno de ellos esta desplazado un ângulo 86/2 relativo a P 0 , en¬ 
fonces el desplazamiento entre P L y P R , que es la disparidad de P, es justamente 86. Por 
simple geometrfa tenemos 

86 _ -b 
~8Z~ Z 2 

En los humanos, b (la linea base) es de unos 6 cm. Supongamos que Z es de unos 100 
cm. Enfonces el menor 86 détectable (correspondiente al tamano del pixel) es de unos 
cinco segundos de arco, dando un 8Z de 0,4 mm. Para Z = 30 cm, tenemos un valor im- 
presionantemente pequeno de 8Z — 0,036 mm. Es decir, a una distancia de 30 cm, los 
humanos podemos discriminar profundidades que difieren tan solo en 0,036 mm, per- 
mitiéndonos enhebrar agujas y cosas asi. 


Gradientes de textura 

La textura, en un lenguaje llano, es la propiedad de las superficies asociada con la ca- 
lidad tâctil que sugieren («textura» tiene la misma raiz que «textil»). En vision por com- 
putador, se refiere a un concepto mtimamente relacionado, que es el de un patron repe- 
tido espacialmente sobre una superficie y que puede captarse visualmente. Entre los 
ejemplos podemos incluir el patron de las ventanas sobre un edificio, las puntadas de un 
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TEXELS 


GRADIENTES DE 
TEXTURA 


suéter, las manchas de la piel de un leopardo, las briznas de hierba en una pradera, los 
guijarros en una playa o la multitud en un estadio. A veces la disposicion es bastante pe- 
riôdica, como las puntadas del suéter; otras veces, como los guijarros de la playa, la re- 
gularidad aparece solo en un sentido estadistico: la densidad de guijarros es aproxima- 
damente la misma en diferentes partes de la playa. 

Lo que acabamos de decir es cierto en el caso de la escena. En la imagen, el tama- 
no aparente, la forma, la separacion, etc., de los elementos de la textura (los texels) si 
que varfan, como se ilustra en la Figura 24.12. Las baldosas son idénticas en la escena. 
Hay dos causas principales para la variacion en el tamano y la forma de las baldosas una 
vez proyectadas en la imagen: 

1. Diferencias en las distancias de los texels a la câmara. Recordemos que bajo 
una proyecciôn perspectiva, los objetos lejanos aparecen mas pequenos. El fac¬ 
tor de escala es de 1/Z. 

2. Diferencias en el escorzo 5 de los texels. Esto esta relacionado con la orientacion 
de cada texel en relaciôn con la linea de vista desde la câmara. Si el texel es per- 
pendicular a la linea de vista, no hay escorzo. La magnitud del efecto de escor¬ 
zo es proporcional a cos a, donde a es la inclinacion del piano del texel. 

Mediante algunos câlculos matemâticos, podemos calcular expresiones para la propor¬ 
tion de cambio de varias caracterfsticas de los texels de la imagen, taies como area, es¬ 
corzo y densidad. Estos gradientes de textura son funciones de la forma de la superfi¬ 
cie, asi como de su inclinacion y ladeo con respecto a la position del observador. 



Figura 24.12 (a) Una escena que ilustra el gradiente de textura. Suponer que la textura real es 

uniforme permite recuperar la orientacion de la superficie. La orientacion calculada se indica su- 
perponiedo un circulo y un indicador, transformados como si el circulo se encontrara pintado so¬ 
bre la superficie en ese punto. (b) Récupération de la forma a partir de una textura para una su¬ 
perficie curva. (Imâgenes cortesia de Jitendra Malik y Ruth Rosenholtz (1994).) 


5 Nota del traductor: Acortamiento de las medidas al representarlas sobre el piano de imagen por efec¬ 
to de la perspectiva. 
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Para recuperar la forma a partir de la textura, podemos usar un proceso en dos pa- 
sos: (a) medir los gradientes de textura; (b) estimar la forma de la superficie, la inclina- 
ciôn y el ladeo que darian lugar a los gradientes de textura medidos. Mostramos los re- 
sultados de este proceso en la Figura 24.12. 


Sombreado 

El sombreado (variaciôn de la intensidad de la luz recibida desde diferentes porciones 
de una superficie de una escena) viene determinado por la geometria de la escena y las 
propiedades reflectantes de las superficies. En grâficos por computador, el objetivo es 
calcular el brillo de la imagen /(x, y), dada la geometria de la escena y las propiedades 
reflectantes de los objetos de la escena. La vision por computador tiene como objetivo 
invertir el proceso, esto es, recuperar la geometria y las propiedades reflectantes, dado 
el brillo de la imagen /(x, y). Se ha comprobado que este proceso es muy dificil de rea- 
lizar mas alla de los casos mas sencillos. 

Comencemos con una situaciôn en la que podamos, de hecho, resolver la recupera- 
ciôn de la forma a partir del sombreado. Consideremos una superficie Lambertiana ilu- 
minada por una fuente de luz puntual lejana. Asumiremos que la superficie esta lo sufi- 
cientemente lejana de la câmara como para que podamos utilizar una proyeccion 
ortogrâfica como aproximaciôn de una proyeccion perspectiva. El brillo de la imagen es 

I(x, y) = kn(x, y) • s 

donde k es una constante de escalado, n es el vector unitario normal a la superficie y s 
es el vector unitario en la direcciôn de la fuente de luz. Puesto que n y s son vectores 
unitarios, su producto escalar es simplemente el coseno del ângulo entre ellos. La for¬ 
ma de la superficie se capta a través de la variaciôn del vector normal n a lo largo de la 
superficie. Supongamos que k y s son conocidos. Nuestro problema es ahora recuperar 
el vector normal a la superficie n(x, y) dada la intensidad de la imagen /(x, y). 

La primera observaciôn que debemos hacer es que el problema de determinar n, dado 
el brillo I de un pixel dado (x, y), esta indeterminado localmente. Podemos calcular el 
ângulo que forma n con el vector de la fuente de luz, pero esto solo restringe su posi- 
ciôn a encontrarse dentro de un cierto cono de direcciones con eje s y un ângulo en su 
vértice de d = cos _1 (7/&). Para continuar, observemos que n no puede variar arbitraria- 
mente de un pixel a otro. Se corresponde con el vector normal de una porciôn de superficie 
suave y consecuentemente debe variar también de una forma suave; el término técnico 
para esta restricciôn es integrabilidad. Se han desarrollado varias técnicas diferentes para 
explotar esta caracteristica. Una es simplemente rescribir n en términos de las deriva- 
das parciales Z x y Z de la profundidad Z(x, y). El resultado es una ecuaciôn diferencial 
parcial para Z que puede resolverse para obtener la profundidad Z(x, y), dadas unas con- 
diciones de frontera apropiadas. 

Se puede generalizar el enfoque de alguna manera. No es necesario que la superfi¬ 
cie sea Lambertiana ni que la fuente de luz sea una fuente puntual. Siempre que poda¬ 
mos computar el mapa de reflectancia A'(n ), que especifica el brillo de una porciôn de 
la superficie como una funciôn de su normal n, podemos utilizar en esencia el mismo 
tipo de técnicas. 
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La verdadera dificultad aparece cuando tratamos las reflexiones entre objetos. Si con- 
sideramos una escena de interior tipica, por ejemplo los objetos de una oficina, las su¬ 
perficies estân iluminadas no solo por las fuentes de luz, sino también por la luz refle- 
jada por otras superficies de la escena que sirven en realidad como fuentes de luz 
secundarias. Este efecto de iluminaciôn mutua es bastante signifieativo. El formalismo 
del mapa de reflectancia falla completamente en esta situaciôn: el brillo de la imagen 
dépende no solo de la normal a la superficie, sino también de las relaciones espaciales 
complejas entre las diferentes superficies de la escena. 

Esta claro que los humanos obtenemos alguna percepciôn de la forma a través del 
sombreado, por lo que este continua siendo un problema interesante a pesar de todas es¬ 
tas dificultades. 

Contorno 

Cuando miramos los trazos de un dibujo de lineas, como el de la Figura 24.13, tenemos 
una percepciôn vivida de la forma y distribuciôn tridimensional. / Como? Al fin y al cabo, 
vimos anteriormente que existen infinidad de configuraciones de la escena que pueden 
llevar a los mismos trazos del dibujo. Observemos que somos capaces incluso de perci- 
bir una superficie ladeada o inclinada. Esto puede deberse a una combinaciôn de cono- 
cimiento de alto nivel (sobre formas comunes) y restricciones de bajo nivel. 

Consideraremos el conocimiento cualitativo disponible de un dibujo de lineas. Como 
se ha tratado anteriormente, las lineas de un dibujo pueden tener mültiples significados. 
(Véase Figura 24.4 y texto adjunto.) La tarea de evaluaciôn del verdadero significado de 
cada linea en una imagen se denomina etiquetado de lineas y fue una de las primeras 
tareas estudiadas en vision por computador. Por ahora, trataremos con un modelo sim- 
plificado del mundo donde los objetos que no tienen marcas de superficie y las lineas 
que se deben a discontinuidades de iluminaciôn, como el borde de sombra y brillos es- 
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peculares, han sido borrados en algün paso del proceso, permitiéndonos limitar nuestra 
atencion a los trazados de un dibujo donde cada linea corresponde a una profundidad o 
a una discontinuidad en la orientacion. 

Entonces, cada lmea puede clasificarse como la proyeccion de una linea de silueta 
(el lugar geométrico de puntos de la superficie donde la linea de vista es tangente a la 
superficie) o como un borde (discontinuidad de la normal de la superficie). Ademâs, cada 
borde se puede clasificar como convexo, concavo y de oclusion. En el caso de los bor¬ 
des de oclusion y lineas de silueta, deberemos conocer cuâl de las dos superficies que 
limitan a la curva en el dibujo es la mas cercana en la escena. Estas inferencias son re- 
presentadas asignândole a cada linea una de las seis étiquetas de linea posibles, como 
esta ilustrado en la Figura 24.14: 

1. Las étiquetas « + » y «—» representan bordes convexos y concavos, respectiva- 
mente. Se asocian con discontinuidades en las normales a la superficie donde 
ambas superficies que se encuentran en el borde son visibles. 

2. Una «<— » o una «—»> representan un borde convexo de oclusion. Vistos desde 
la câmara, ambos fragmentos de superficie que se juntan en el borde, se en¬ 
cuentran en el mismo lado, uno ocultando al otro. Conforme uno se mueve en 
la direcciôn de la flécha, las superficies quedan a la derecha. 

3. Una « < < » o una « > > » representan una linea de silueta. La superficie se cur¬ 
va suavemente para ocultarse ella misma. Conforme uno se mueve en la direc- 
cion de las fléchas dobles, la superficie se sitüa a la derecha. La linea de vista 
es tangente a la superficie para todos los puntos de la linea de silueta. Las line- 
as de silueta se mueven sobre la superficie del objeto conforme cambia el pun- 
to de vista. 

De las 6" posibles combinaciones de asignacion de étiquetas para las n lineas del dibu¬ 
jo, solo una pequena cantidad son fisicamente posibles. La determinacion de estas asig- 
naciones de étiquetas es el problema del etiquetado de linea. Notese que este problema 
ünicamente tiene sentido si la étiqueta es la misma en toda la linea. Esto no siempre es 
cierto, porque la étiqueta puede cambiar a lo largo de una linea en imâgenes de objetos 
curvos. Trataremos solo objetos poliédricos para evitar este problema. 

Huffman (1971) y Clowes (1971) intentaron, independientemente, la primera apro- 
ximacion sistemâtica al anâlisis de escenas poliédricas. Huffman y Clowes limitaron sus 
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TRIÉDRICOS 


RUPTURAS 


OCTANTES 


anâlisis a escenas con solidos triédricos opacos (objetos en los que en cada vértice con- 
vergen exactamente très superficies planas). Para escenas con mültiples objetos, des- 
cartaron las alineaciones de objetos que podrian suponer una violaciôn del supuesto trié- 
drico, como dos cubos compartiendo un borde comün. Las rupturas (por ejemplo, 
«bordes» a través de los cuales los pianos tangentes son continuos) tampoco se permi- 
ten. Para el mundo triédrico, Huffman y Clowes realizaron una lista exhaustiva de los 
diferentes tipos de vértices y de las diferentes formas de observarlos bajo un punto de 
vista general. La condicion del punto de vista general asegura esencialmente que si exis¬ 
te un pequeno movimiento del ojo, ninguna de las aristas cambia su carâcter. Por ejem¬ 
plo, esta condicion implica que si intersectan très lineas en la imagen, los bordes co- 
rrespondientes en la escena deben intersectar también. 

En la Figura 24.15 se muestran los cuatro modos en los que pueden concurrir très 
superficies planas en un vértice. Estos casos han sido construidos tomando un cubo y 
dividiéndolo en ocho octantes. Queremos generar todos los posibles vértices triédricos 
del centra del cubo rellenândolo con varios octantes. El vértice etiquetado con 1 co¬ 
rresponde a un octante relleno, 3 con très octantes rellenos, etcétera. Los lectores deben 
convencerse que estas son, en efecto, todas las posibilidades. Por ejemplo, si uno relle- 
na dos octantes en un cubo, uno no puede construir un vértice triédrico vâlido en el cen¬ 
tra. Nôtese también que estos cuatro casos corresponden a combinaciones diferentes de 
bordes concavos y convexos que coinciden en el vértice. 

Los très bordes que se encuentran en el vértice dividen el espacio que les rodea en 
ocho octantes. Un vértice puede verse desde cualquier octante no ocupado por material 
solido. Moviendo el punto de vista dentro de un octante no produce un dibujo con dife¬ 
rentes tipos de union. El vértice etiquetado como 1 en la Figura 24.15 puede verse des¬ 
de cualquiera de los siete octantes restantes para producir las étiquetas de union en la 
Figura 24.16. 
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Un listado exhaustivo de las diferentes formas en que cada vértice puede observar- 
se da como resultado las posibilidades que se muestran en la Figura 24.17. En la ima- 
gen podemos distinguir cuatro tipos de union diferentes: L-, Y-, fléchas, y uniones T. Las 
uniones L corresponden a dos bordes visibles. Las uniones Y y fléchas corresponden a 
bordes triples (en una union Y ninguno de los très ângulos es mayor que 180°). Las unio¬ 
nes T se asocian con la oclusion. Cuando una superficie mas cercana y opaca obstacu- 
liza la vista de un borde a mayor distancia, se obtiene un borde continuo con un encuentro 
en la mitad del borde. Las cuatro étiquetas de la union T corresponden a la oclusion de 
cuatro tipos diferentes de bordes. 

En la utilizacion de este diccionario de uniones, para encontrar una étiqueta para el 
dibujo de lineas, el problema es descubrir qué interpretaciones de union son globalmente 
consistentes. La consistencia se fuerza por la régla que indica que a cada linea del di- 
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bujo se le debe asignar una y solo una étiqueta, en toda su longitud. Waltz (1975) pro- 
puso un algoritmo para este problema (en realidad, para una version ampliada con som¬ 
bras, rupturas y bordes côncavos séparables) el cual fue una de las primeras aplicacio- 
nes de satisfaccion de restricciones en IA (véase Capitulo 5). En la terminologia CSP, 
las variables son las uniones, los valores son las étiquetas de las uniones y las restric¬ 
ciones son que cada linea tiene una ünica étiqueta. Aunque el problema del etiquetado 
de lineas para escenas triédricas es NP-completo, en la prâctica los algoritmos estândar 
CSP obtienen buenos resultados. 


24.5 Reconocimiento de objetos 


IDENTIFICACIÔN 

BIOMÉTRICA 


RECUPERACIÔN DE 
IMAGENES BASADO 
EN C0NTENID0 


RECONOCIMIENTO DE 
ESCRITURA 


La vision nos permite reconocer de forma fiable gente, animales y objetos inanimados. 
En IA o vision por computador, es habituai utilizar el término reconocimiento de obje¬ 
tos para referirse a todas estas capacidades. Esto incluye la determinacion de la clase de 
objetos particulares que aparecen en la imagen (por ejemplo, una cara) as! como el re¬ 
conocimiento especffico de objetos (por ejemplo, la cara de Bill Clinton). Las aplica- 
ciones que motivan estas técnicas incluyen las siguientes: 

• Identifîcaciôn biométrica: las investigaciones criminales y el control de acceso 
para instalaciones restringidas requieren la habilidad de identificar de forma üni¬ 
ca a los individuos. Huellas dactilares, escâner de iris y fotografias faciales tienen 
como resultado imâgenes que deben identificar a individuos especificos. 

• Recuperaciôn de imâgenes basado en el contenido: es sencillo encontrar la 
ubicaciôn en un documento, si existe, de la cadena «gato», cualquier editor de tex¬ 
tes proporciona esta capacidad. Ahora, consideramos el problema de encontrar un 
conjunto de pixeles en una imagen que corresponden a la imagen de un gato. Si 
uno tuviera esta capacidad, podria recuperar de la imagen hechos como «Bill 
Clinton y Nelson Mandela juntos», «un patinador en el aire», «la Torre Eiffel de 
noche», etcétera, sin tener que teclear el tftulo para cada fotografîa de una colec- 
ciôn. Mientras crezcan las colecciones de imâgenes y video, las anotaciones ma- 
nuales no pueden aumentar. 

• Reconocimiento de escritura: los ejemplos incluyen firmas, bloques de direc- 
ciones en sobres, importe de chèques y entrada con boligrafo en PDAs. 


La vision se utiliza para reconocer no solo objetos, sino también actividades. Podemos 
identificar pasos (el caminar de un amigo), expresiones (una sonrisa, una mueca), ges¬ 
tes (una persona haciendo senas con una mano), acciones (saltar, bailar), etcétera. La in- 
vestigacion en actividades de reconocimiento esta todavia en su infancia, por esto mis- 
mo en esta seccion nos centraremos en el reconocimiento de objetos. 

El problema del reconocimiento visual de objetos es generalmente sencillo para las 
personas, pero se ha probado que es muy complejo para los computadores. Uno quiere 
ser capaz de identificar la cara de una persona a pesar de las variaciones de iluminacion, 
postura respecto a una câmara y expresiones faciales. Cualquiera de estos cambios cau¬ 
sa diferencias generales en los valores de brillo de un pixel, asi que realizar sencillamente 






PERCEPCIÔN 1005 


una comparaciôn de pixeles es poco probable que funcione. Cuando se desea reconocer 
ejemplos de una categoria, como por ejemplo un «coche», se debe hacer frente a las va- 
riaciones dentro de la categoria. Incluso el restringido problema del reconocimiento de 
los numéros escritos a mano en los côdigos postales résulta ser un desafio. 

El aprendizaje supervisado o clasificaciôn de patrones proporciona una plataforma 
natural para el estudio del reconocimiento de objetos. Dando imâgenes de ejemplos po- 
sitivos («caras») y ejemplos negativos («no caras»), el objetivo es el aprendizaje de una 
funciôn que pueda hacer corresponder imâgenes originales a una de las étiquetas cara, 
no cara. Todas las técnicas de los capitulos 18 y 20 pueden ser candidatas: perceptro- 
nes multicapa, ârboles de decision, clasificadores por el vecino mas cercano, y mâqui- 
nas nücleo 6 , todas han sido aplicadas a los problemas de reconocimiento de objetos. De- 
bemos anotar, sin embargo, que la aplicaciôn de estas técnicas para el reconocimiento 
de objetos esta lejos de ser sencilla. 

El primer desafio es la segmentacion de la imagen. Cualquier imagen contendrâ mülti- 
ples objetos, por eso necesitamos en un principio dividirla en grupos de pixeles que corres- 
ponden con objetos individuales. Una vez la imagen esta dividida en regiones, se pueden 
introducir estas regiones o conjuntos de regiones en un clasificador para determinar las éti¬ 
quetas de los objetos. Desafortunadamente, la segmentacion de abajo a arriba ( bottom-up ) 
es un proceso propenso a tener errores, por eso como alternativa se debe intentai - buscar 
grupos de objetos de arriba abajo (top-down ). Esto es, buscar un conjunto de pixeles que 
se puedan clasificar como una cara, y si se tiene éxito, ;se ha encontrado un grupo! Las 
estrategias top-down tienen una alta complejidad computacional, porque se necesita exa- 
minar ventanas de imagen de varios tamanos, en diferentes ubicaciones, asi como com- 
pararlas con todas las diferentes hipôtesis de objetos. En el présente, muchos sistemas prâc- 
ticos de reconocimiento de objetos utilizan una estrategia de arriba abajo (top-down), 
aunque esto debe cambiar conforme mejoren las técnicas de abajo arriba (bottom-up). 

El segundo reto es asegurar que el proceso de reconocimiento es robusto con varia- 
ciones de iluminaciôn y postura. Los humanos pueden reconocer objetos a pesar de va- 
riaciones considérables en la apariencia exacta, medida por los valores de intensidad de 
los pixeles. Por ejemplo, podemos reconocer la cara de un amigo bajo diferentes con- 
diciones de iluminaciôn, o desde diferentes ângulos. Veamos un ejemplo sencillo, si con- 
sideramos el nümero 6 escrito a mano. Podemos reconocerlo de diferentes tamanos y 
en diferentes posiciones en la imagen, a pesar de pequenas rotaciones de la figura 7 . 

El punto clave a tener en cuenta es que las transformaciones geométricas como tras- 
laciôn, escalabilidad y rotaciôn, o transformaciones del brillo de la imagen causadas por 
el movimiento fisico de las fuentes de luz, tienen diferente carâcter que las variaciones 
dentro de una categoria, como las que existen entre diferentes rostros humanos, o las for¬ 
mas diferentes de escribir el nümero 4. Por otro lado, los efectos de las transformacio¬ 
nes geométricas y fisicas son sistemâticos y uno puede factorizarlos con un diseno apro- 
piado de los rasgos utilizados para representar los casos de aprendizaje. 

Para evitar variaciones en las transformaciones geométricas, una técnica que ha sido 
probada de forma efectiva es preprocesar la région de la imagen en una posiciôn, esca- 


6 Nota deltraductor: Del inglés Kernel Machines. 

7 Una rotaciôn compléta no variante no es nunca necesaria ni deseable; se puede confundir un 6 con un 9. 
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la y orientacion estândar. Altemativamente, podemos ignorar la naturaleza casual de las 
transformaciones geométricas y fïsicas y pensar en ellas ünicamente como otras fuen- 
tes de variabilidad para el clasificador. En el conjunto de entrenamiento, es necesario que 
se proporcione un ejemplo correspondiente a todas estas variaciones, y la esperanza es 
que el clasificador inducirâ un conjunto apropiado de transformaciones sobre la entra- 
da de tal manera que las variaciones son factorizadas. 

Veamos ahora algoritmos especificos para el reconocimiento de formas. Para sim- 
plificar, nos centraremos en el problema con un escenario de dos dimensiones, con 
ejemplos de entrenamiento y texto dados en formata de imâgenes bidimensionales cla- 
ras. En dominios como el reconocimiento de letra manuscrita esto es suficiente. Igual- 
mente en los casos de objetos tridimensionales, un estrategia efectiva es representarlos 
como mültiples vistas bidimensionales (véase Figura 24.18) y clasificar nuevos objetos 
comparândolos con (alguna representaciôn de) las vistas almacenadas. 

La anterior secciôn muestra que existen diferentes seriales para extraer informacion 
tridimensional sobre la escena. El reconocimiento de objetos esta también basado en mül¬ 
tiples senales, identificamos un tigre por la mezcla de colores naranjas y negros, por la 
textura de rayas y por la forma del cuerpo. 

El color y la textura se pueden representar con histogramas o distribuciones de fre- 
cuencia empiricas. Dada una imagen ejemplo de un tigre, podemos medir el porcentaje 
de pixeles en los diferentes colores. Posteriormente, cuando se présenta una imagen des- 
conocida, podemos comparar su histograma de color con los vistos de los ejemplos del 
tigre. Para analizar texturas, consideramos los histogramas de los resultados de la con- 
voluciôn de una imagen con filtros de diferentes orientaciones y escalas, buscando una 
coincidencia. 

Ha resultado muy dificil el uso de la forma para el reconocimiento de objetos. Ha- 
blando en términos generales, existen dos métodos principales: reconocimiento basa- 
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do en el brillo, en el cual se utiliza directamente el valor de brillo de un pixel, y reco- 
nocimiento basado en las caracteristicas el cual implica el uso de la disposicion es- 
pacial de los rasgos extraidos como bordes y puntos clave. Tras tratar cada uno de estos 
métodos con mas detalle, veremos el problema de la estimaciôn de postura, esto es, de- 
terminar la localizacion y orientaciôn de los objetos en la escena. 


Reconocimiento basado en la intensidad 

Dado el subconjunto de pixeles de una imagen que corresponden con un objeto candi- 
dato, definimos las caracteristicas como los valores brutos de la intensidad del pixel en 
si mismos. O, en una variante, primero se debe convolucionar la imagen con varios fil¬ 
tras lineales y tratar los valores de los pixeles de la imagen résultante como las caracte¬ 
risticas. Este método ha sido un éxito en tareas como el reconocimiento de digitos ma¬ 
nuscrites como se vio en el Apartado 20.7. 

Se han utilizado varios métodos estadisticos para desarrollar detectores faciales a par¬ 
tir de bases de datos de imâgenes, incluyendo redes neuronales con entradas sin tratar 
de pixeles, ârboles de decision con caracteristicas definidas por varios filtras de barra y 
borde, y modelos de Bayes sencillos con pequenas caracteristicas. En la Figura 24.19 
se muestran algunos resultados del ültimo método. 

Un aspecto negativo del uso de pixeles sin tratar como vector de caracteristicas es 
una gran redundancia inherente en esta representaciôn. Considerando dos pixeles cer- 
canos pertenecientes a la mejilla de un rostro; es probable que estén muy relacionados 
por tener una geometria similar, iluminaciôn, etc. Las técnicas de reducciôn de datos como 
anâlisis del principal componente, pueden ser utilizadas exitosamente para reducir la di- 



Figura 24.19 Salida obtenida de un algoritmo de büsqueda de rostros. (Cortesia de Henry Schnei- 
derman y Takeo Kanade.) 
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mensiôn del vector de caracteristicas, permitiendo el reconocimiento de cosas taies como 
rostros, con mayor velocidad que un método que lo realice con un espacio de mayor di¬ 
mension. 


Reconocimiento basado en las caracteristicas 


EMPAREJAMIENTO 

DEFORMABLE 


En lugar de utilizar el brillo de pfxeles sin tratar como caracteristicas, podemos detec- 
tar y marcar caracteristicas localizadas espacialmente como regiones y bordes (Aparta- 
do 24.3). Hay dos motivos por los cuales se utilizan bordes. El primero es la reducciôn 
de datos (hay muchos menos bordes que pixeles en la imagen). El segundo es la per- 
manencia de la iluminacion, dentro de un rango adecuado de contraste, los bordes se- 
rân detectados aproximadamente en la misma localizacion, independientemente de la con- 
figuraciôn exacta de iluminacion. Los bordes son caracteristicas unidimensionales; 
pueden utilizarse también caracteristicas bidimensionales (regiones) y caracteristicas sin 
dimension (puntos). Notese la diferencia en el tratamiento de la localizacion espacial en 
los métodos basados en la intensidad y en las caracteristicas. En los métodos basados 
en el brillo, éste esta implicitamente codificado como el indice de una componente de 
un vector de caracteristicas. En los métodos basados en las caracteristicas, la localiza¬ 
cion (x, y) es la caracteristica. 

La disposicion de los bordes es caracteristico de un objeto (esta es una razon por la 
cual podemos interpretar fâcilmente dibujos de linea (Figura 24.13)), aun cuando estas 
imâgenes no ocurren en la realidad. La forma mas sencilla de utilizar este conocimien- 
to es con un clasificador por los vecinos mas cercanos. Calculamos previamente y al- 
macenamos las configuraciones de los bordes correspondientes a las vistas de objetos 
conocidos. Dada la configuracion de los bordes correspondiente al objeto desconocido 
en la imagen, podemos determinar la «distancia» a cada miembro de una biblioteca de 
vistas almacenadas. Un clasificador por el vecino mas cercano selecciona la pareja mas 
cercana. 

Se han propuesto muchas definiciones diferentes para distancias entre imâgenes. Uno 
de los métodos mas interesantes esta basado en la idea de emparejamiento déforma¬ 
ble. D’Arcy Thompson (1917) en su clâsico trabajo Sobre el Crecimiento y la Forma 8 
observé que figuras relacionadas pero no idénticas podian ser deformadas a veces hacia 
un alineamiento utilizando transformaciones simples coordinadas 9 . En este paradigma, 
tenemos una idea de la semejanza de la figura en un proceso de très pasos: (1) Resolver 
el problema de correspondencia entre las dos figuras, (2) utilizar las correspondencias 
para estimar una transformacion de alineacion, y (3) calcular la distancia entre las dos 
figuras como la suma de los errores de emparejamiento entre puntos correspondientes, 
conjuntamente con un término que mida la magnitud de la transformacion de alineacion. 

Representamos la figura como un conjunto discreto de puntos muestreados de los 
contornos internos o externos de la figura. Estos pueden ser obtenidos como emplaza- 
mientos de los pixeles de borde encontrados por un detector de bordes, dândonos un con- 


Nota del traductor: tltulo original: On Growth and Form. 

9 En los grâficos por computador actuales, esta idea es conocida como morphing. 
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C0NTEXT0 DE LA 
FIGURA 


junto {p lt p 2> ..p N ) de N puntos. La Figura 24.20 (a) y (b) muestra puntos de ejemplo 
para dos figuras. 

A continuaciôn consideramos un punto de muestra particular p t , conjuntamente con 
el conjunto de vectores originados desde ese punto al resto de puntos de muestra de la 
figura. Estos vectores expresan la configuracion de la figura compléta relativa al punto 
de referencia. Lo que nos conduce a la siguiente idea: asociar con cada punto de mues¬ 
tra un descriptor, el contexto de la figura, el cual describe toda la disposicion del res¬ 
to de la figura respecto a este punto. De forma mas précisa, el contexto de la figura de 
Pi es un histograma espacial /?, de coordenadas relativas p k — p t de los restantes N — 1 
puntos p k . Un sistema de coordenadas polares logaritmicas se utiliza para définir sec- 
ciones asegurando que el descriptor es mas sensible a las diferencias en pixeles cerca- 
nos. Se muestra un ejemplo en la Figura 24.20(c). 



Figura 24.20 Câlculo y emparejamiento de los contextos de la figura, (a, b) Puntos muestra de bor¬ 
de de dos figuras, (c) Diagrama de los histogramas de secciones polares logaritmicas utilizados en 
el câlculo de los contextos de la figura. Utilizamos cinco secciones para log r y 12 secciones para 0. 
(d-f) Ejemplos de contextos de figura para referenciar muestras marcadas por los puntos O, O, <1 en 
(a, b). Cada contexto de figura es un histograma polar de las coordenadas del resto de los puntos me- 
didos utilizando el punto de referencia como el origen. (Las celdas oscuras significan mâs puntos 
en la secciôn.) Nôtese la similitud visual de los contextos de figura entre O y O, los cuales han sido 
calculados para puntos relativamente parecidos en las dos figuras. Por contraste, el contexto de fi¬ 
gura para < es bastante diferente. (g) Correspondencias entre (a) y (b) encontradas utilizando em¬ 
parejamiento bipartito, con coste definido por la distancia \ 2 entre histogramas. 
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MÉT0D0 DE 
ALINEACION 


Nôtese que la invarianza a la traslaciôn es intrinseca a la definiciôn del contexto de 
la figura ya que todas las medidas son tomadas respecto a los puntos del objeto. Para lo- 
grar invarianza de escala, todas las distancias radiales son normalizadas por la distancia 
media entre pares de puntos. 

Los contextos de la figura nos permiten resolver el problema de correspondencia en¬ 
tre dos figuras similares pero no idénticas, como lo visto en la Figura 24.20(a) y (b). Los 
contextos de la figura serân diferentes para diferentes puntos en una ünica figura S, mien- 
tras que puntos coincidentes (homologos) en figuras similares S y S' tenderân a tener 
unos contextos de figura similares. Podemos resolver el problema de encontrar puntos 
correspondientes entre dos figuras, encontrando parejas que tengan contextos de figura 
similares. 

Mas detalladamente, consideramos un punto p i en la primera figura y un punto c/ ; en 
la segunda figura. Suponemos que C ;/ = C(p n q .) dénota el coste de emparejar los dos 
puntos. Como los contextos de figura son distribuciones representadas como histogra- 
mas, es natural utilizar la distancia x 2 : 

* um - hjm 2 

C,J ~ 2 k % W) + hfk) 

donde h^k) y hfk) indican que el Uésimo cubo de los histogramas normalizados en p j y 
q r Dado el conjunto de los costes C Vj entre todos los pares de puntos i en la primera fi¬ 
gura y j en la segunda figura queremos minimizar el coste total de emparejamiento su- 
jeto a la limitaciôn de que el emparejamiento sea uno a uno. Esto es una instancia del 
problema del emparejamiento ponderado, el cual puede ser resuelto en tiempo 0(N 3 ) 
utilizando el algoritmo Hüngaro. 

Dadas las correspondencias de puntos de muestra, la correspondencia se puede ex- 
tender a la figura compléta estimando una transformaciôn de alineamiento que empare- 
ja una figura sobre la otra. La utilizaciôn de las curvas spline como formalizaciôn es es- 
pecialmente efectiva. Una vez las figuras estân alineadas, calcular puntuaciones similares 
es relativamente sencillo. La distancia entre dos figuras puede ser definida como una suma 
ponderada de las distancias de los contextos de la figura entre puntos correspondientes 
y la energia asociada con la spline. Dada esta medida de la distancia, se puede utilizar 
un simple clasificador por el vecino mas cercano para resolver el problema del recono- 
cimiento. La excelente mejora de este método para la clasificaciôn de digitos escritos a 
mano ha sido descrita en el Capitulo 20. 

Estimaciôn de postura 

Ademâs de determinar qué es un objeto, también nos interesa determinar su postura, esto 
es, su posicion y orientacion respecto al observador. Por ejemplo, en una tarea de ma- 
nipulacion industrial, el brazo del robot no puede tomar un objeto hasta que la postura 
sea conocida. En el caso de objetos rigidos, tanto tridimensionales como bidimensiona- 
les, este problema tiene una solucion sencilla y bien definida basada en el método de 
alineaciôn, el cual desarrollaremos a continuacion. 

El objeto esta representado por M caracterfsticas o puntos distinguidos m v m 2 , ..., 
m M en un espacio tridimensional, quizâ los vértices de un objeto poliédrico. Estos son 
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medidos en algün sistema de coordenadas natural para el objeto. Los puntos estân so- 
metidos a una rotacion tridimensional desconocida R, seguida de una traslaciôn por una 
cantidad desconocida t y posteriormente una proyeccion para dar lugar a una sérié de 
puntos de caracteristicas de la imagen p n p„ ..., p N en el piano de la imagen. En gene¬ 
ral, N # M, porque algunos de los puntos pueden estar ocultos, y el detector de carac- 
terfsticas podria pasar por alto algunas caracteristicas (o inventar algunas falsas a causa 
del ruido). Podemos expresar esto como 

Pi = n(Rm, + t) = = Q(m,) 

para un punto modelo tridimensional m t , y el punto de la imagen correspondiente p r R 
es una matriz de rotacion, t es una traslaciôn, y II dénota la proyeccion perspectiva o una 
de sus aproximaciones, como proyecciones ortogrâficas a escala. El resultado neto es 
una transformaciôn Q que lleva a un punto modelo en alineaciôn con el punto de la 
imagen p r Aunque no conocemos Q inicialmente, sabemos (para objetos rigidos) que 
Q debe ser la misma para todos los puntos del modelo. 

Se puede resolver para Q, dadas las coordenadas tridimensionales de très puntos del 
modelo y sus proyecciones bidimensionales. Intuitivamente séria como sigue: se pue¬ 
den expresar ecuaciones relacionando las coordenadas de p t con las de m r En estas ecua- 
ciones, las cantidades desconocidas corresponden a los parâmetros de la matriz de ro- 
taciôn R y el vector de traslaciôn t. Si tenemos suficientes ecuaciones, debemos ser 
capaces de resolver Q. No veremos ninguna prueba; simplemente plantearemos el si- 
guiente resultado: 

Dados très puntos no colineales m ,, »?„ y m 3 en el modelo, y sus proyecciones ortogrâ¬ 
ficas a escala p v p-, y p 3 en el piano de la imagen, existen exactamente dos transforma- 
ciones desde un sistema de coordenadas del modelo tridimensional, a un sistema de co¬ 
ordenadas de la imagen bidimensional. 

Estas transformaciones estân relacionadas por un reflejo sobre el piano de la imagen y 
pueden ser calculadas con una sencilla soluciôn de forma cerrada. Si pudiéramos iden- 
tificar las caracteristicas del modelo que corresponden con très caracteristicas de la 
imagen, podriamos calcular Q, la postura del objeto. En la secciôn anterior, vimos una 
técnica para determinar correspondencias utilizando el emparejamiento por contexto de 
la figura. Si el objeto tiene las esquinas bien definidas u otros puntos de interés, enfon¬ 
ces una técnica sencilla es apropiada. La idea es generar y probar. Debemos suponer una 
correspondencia inicial de très imâgenes con très modelos y utilizar la funciôn Encon- 
trar Transformada para obtener una hipôtesis de Q. Si la correspondencia supuesta 
era correcta, entonces Q sera correcta, y aplicada al resto de puntos del modelo, se ob- 
tendrâ una predicciôn de los puntos de la imagen. Si la correspondencia supuesta era in- 
correcta, entonces Q sera incorrecta, y aplicada a los puntos del modelo restantes, no pre- 
decirân los puntos de la imagen. 

Es la base del algoritmo Alineaciôn mostrado en la Figura 24.21.El algoritmo ha- 
11a la postura de un modelo dado, o devuelve un error. La complejidad temporal en el 
peor caso del algoritmo es proporcional al numéro de combinaciones de très modelos y 
très imâgenes, o (^j, veces el coste de verificar cada combinaciôn. El coste de veri- 
ficaciôn es M log N, ya que debemos predecir la posiciôn de la imagen por cada punto 
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funciôn Au\ ea m ientû( imagen , modelo) devuelve una soluciôn o error 
entradas: imagen, lista de puntos de rasgos de la imagen 
modelo, lista de puntos de rasgos del modelo 

para cada p l ,p 2 ,p 3 en TRiPLETAs(/»7age/t) hacer 
para cada m v m 2 , m 3 en TripletasOhcwMo) hacer 

Q <- Encontrar_Transformada(pj, p 2 , p 3 , m v m 2 , m 3 ) 
si proyeccion segün Q explica la imagen entonces 
devolver Q 
devolver error 


Figura 24.21 Una descripcion informai del algoritmo de alineamiento. 



del modelo M, y hallar la distancia al punto de imagen mas cercano, una operacion log 
N es una estructura de datos apropiada si los puntos de la imagen estân organizados. Por 
lo tanto, la complejidad en el peor caso del algoritmo de alineacion es O (M 4 N 3 log N), 
donde M y N son el nümero de puntos del modelo y de la imagen, respectivamente. Las 
técnicas basadas en el agrupamiento de posturas en combinacion con la aleatorizaciôn 
reducen la complejidad a O (M N 3 ). Los resultados de la aplicacion de este algoritmo a 
la imagen de la grapadora se muestran en la Figura 24.22. 


24.6 Empleo de la vision para la manipulaciôn 
y navegacion 


Uno de los principales usos de la vision es proporcionar informacion para la manipula- 
cion de objetos (tomarlos, sujetarlos, girarlos, etc.) y para la navegacion evitando obs- 
tâculos. La capacidad de utilizar la vision para estos propositos esta présente en los sis- 
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temas visuales animales mas primitivos. En muchos casos, el sistema visual es mi'nimo, 
en el sentido de que extrae a partir del campo de vision disponible solo la informaciôn 
que el animal necesita para informar de su comportamiento. Es muy probable que los 
sistemas de vision modernos evolucionaran de los primeros organismos primitivos que 
utilizaban un punto fotosensible en un extremo para orientarse hacia (o lejos de) la luz. 
Vimos en el Apartado 24.4 que las moscas utilizan un sistema de detecciôn simple del 
flujo ôptico para posarse sobre las paredes. En un estudio clâsico, Lo que el ojo de la 
rana le dice al cerebro de la rana w (Lettvin et a/., 1959), observé en una rana que «Se 
moriria de hambre rodeada de comida si ésta no se moviera. Su posibilidad de comer 
viene determinada por el tamano y movimiento». 

Los sistemas de vision por computador se utilizan en «organismos» llamados robots. 
Consideraremos un caso particular de robot: un vehiculo automâtico conducido en una 
autopista. (Véase Figura 24.23.) En un principio, analizaremos la tarea; posteriormen- 
te, identifiearemos los algoritmos de vision que proveerân la informaciôn necesaria 
para llevar a cabo de forma satisfactoria estas tareas. Las tareas que el conductor debe 
afrontar son las siguientes: 

1. Control latéral: garantiza que el vehiculo permanece de forma segura en el ca- 
rril o cambie de carril suavemente cuando es requerido. 

2. Control longitudinal: asegura que existe una distancia de seguridad con el ve¬ 
hiculo de enfrente. 



Figura 24.23 Imagen de una carretera tomada desde una câmara en el interior de un coche. Las 
barras blancas horizontales indican las ventanas de büsqueda en las que el controlador busca los 
marcadores del carril. La baja calidad de la imagen no es atipica en videos en escala de grises de 
baja resoluciôn. 


10 


Nota del traductor: titulo original: What the Frog’s Eye Tells the Frog’s Brain. 
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3. Evitar obstâculos: controlar vehfculos en los carriles vecinos y estar preparado 
para realizar maniobras evasivas si alguno de ellos décidé cambiar de carril. 

El problema para el conductor es producir las acciones adecuadas de direccion, acele- 
raciôn y frenado para realizar de la mejor forma posible estas tareas. 

Para el control latéral, se necesita mantener una representaciôn de la posicion y orien- 
taciôn del coche relativa al carril. En la imagen mostrada en la Figura 24.23, podemos 
utilizar algoritmos de detecciôn de bordes para encontrar bordes correspondientes a los 
segmentos de las lineas para marcar los carriles. Enfonces, podemos asociar curvas sua¬ 
ves con estos bordes. Los paramétras de estas curvas contienen informacion sobre la po- 
siciôn latéral del coche, la direccion a la que se dirige relativa al carril, y la curvatura 
del carril. Esta informacion, junto con informacion de la dinâmica del coche, es todo lo 
que necesita el sistema de control de direccion. Nôtese también que de cada fotograma 
al siguiente, existe un cambio muy pequeno en la posicion de la proyecciôn del carril en 
la imagen, se puede conocer dônde buscar las marcas de carriles en la imagen, en la fi¬ 
gura, necesitamos solo buscar en las areas marcadas por barras paralelas blancas. 

Para el control longitudinal, se necesita conocer las distancias relativas a los vehi- 
culos frontales. Esto se puede llevar a cabo con vision estereoscôpica binocular o flujo 
ôptico. Ambas aproximaciones se pueden simplificar utilizando las restricciones de do- 
minio derivadas del hecho de que la conducciôn se realiza en una superficie plana. Uti¬ 
lizando estas técnicas, coches controlados por vision pueden conducirse a velocidades 
altas durante distancias largas. 

El ejemplo de la conducciôn déjà muy claro un punto: para tareas especificas, no 
es necesario recopilar toda la informacion, que en un principio, puede ser recopilada 
de una imagen. No es necesario recopilar la forma exacta de cada vehiculo, resolver la 
forma a partir de la textura de la superficie del césped adyacente a la autopista, etc. La 
tarea requiere ünicamente cierta clase de informacion, puede ganarse una considérable 
velocidad computacional y robustez recopilando ünicamente esta informacion y explo- 
tando al mâximo las restricciones del dominio. Nuestro objetivo a la hora de tratar los 
métodos generales en la secciôn anterior es debido a que forman la teoria bâsica, con la 
cual cada uno puede especializarse segün las necesidades de sus tareas particulares. 


24.7 Resumen 


Aunque la percepciôn parece ser una actividad sin esfuerzo para los humanos, requiere 
una considérable cantidad de câlculos sofisticados. La vision tiene como objetivo extraer 
informacion necesaria para tareas taies como manipulaciôn, navegaciôn y reconoci- 
miento de objetos. 

• El proceso de formaciôn de imâgenes es bien conocido en sus aspectos geomé- 
tricos y fîsicos. Dada una descripciôn de una escena tridimensional, podemos ge- 
nerar fâcilmente una imagen de ésta desde la posicion arbitraria de una câmara (los 
problemas de grâficos). Invertir el proceso para a partir de una imagen obtener una 
descripciôn de la escena, es mas dificil. 
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• Para extraer la informaciôn necesaria para la tarea de manipulaciôn, navegaciôn, 
y reconocimiento, se deben generar representaciones intermedias. Los algoritmos 
de bajo nivel para el procesamiento de imâgenes por vision extraen caracteristi- 
cas primitivas de la imagen, como bordes y regiones. 

• Existen algunas seriales en la imagen que permiten obtener informaciôn tridi- 
mensional de la escena: movimiento, vision estereoscôpica, textura, sombreado y 
anâlisis de contornos. Cada una de estas seriales se basan en supuestos de contex¬ 
te sobre escenas frsicas para proporcionar interpretaciones sin ambigüedades. 

• El reconocimiento de objetos en su totalidad es un problema muy difrcil. Trata- 
mos métodos basados en el brillo y basados en caracterfsticas. Y se présenté un 
algoritmo sencillo para la estimaciôn de la postura. Aunque existen otras posibi- 
lidades. 



Notas bibliogrâficas e histôricas 

Los esfuerzos sistemâticos para entender la vision humana se remontan a tiempos muy 
antiguos. Euclides (300 a.C.) escribiô sobre perspectiva natural: el planeamiento que 
asocia, con cada punto P del mundo tridimensional, la direcciôn de la lrnea OP unien- 
do el centra de la proyecciôn O con el punto P. Era bien entendido en la nociôn de pa- 
ralaje por movimiento. La comprensiôn matemâtica de la proyecciôn en perspectiva, 
esta vez en el contexte de proyecciôn sobre superficies planas, tuvo su siguiente avan¬ 
ce significativo en la Italia Renacentista del siglo xv. Es a Brunelleschi (1413) a quien 
se le atribuye la creaciôn de los primeras dibujos basados en proyecciones geométri- 
camente correctas de una escena tridimensional. En 1435, Alberti codificô las réglas 
e inspiré generaciones de artistas cuyos logros artrsticos todavra nos asombran. Leo¬ 
nardo da Vinci y Albrecht Dürer fueron especialmente notables por su desarrollo de 
la ciencia de la perspectiva, como lo llamaron en esa época. Las descripciones de Le¬ 
onardo a finales del siglo xv de la interacciôn de luz y sombra (claroscuro), las regiones 
de sombra y penumbra, y la perspectiva aérea merecen todavra ser lerdas (Kemp, 
1989). 

Aunque la perspectiva era conocida por los griegos, éstos estaban confundidos cu- 
riosamente por el papel que desempenaban los ojos en la vision. Aristôteles pensaba 
en los ojos como un dispositivo emisor de rayos, como los modernos buscadores laser. 
Esta vision errônea terminô con el trabajo de los cientrficos arabes, como Alhazen, en 
el siglo x. Siguiô por el desarrollo de una sérié de câmaras. Estas câmaras consistran 
en habitaciones (caméra es la palabra latina para «habitaciôn») donde la luz entraba por 
un pequeno agujero en una de las paredes, para proyectar una imagen del mundo exte- 
rior en la pared opuesta. Por supuesto, en todas estas câmaras, la imagen estaba inver- 
tida, lo que causé una interminable confusion. Si se pensaba en el ojo como un dispo¬ 
sitivo de obtenciôn de imâgenes, /como vemos de forma correcta? Este enigma hizo 
que se ejercitaran las mentes mâs brillantes de la era (incluido Leonardo). Esto llevô 
al trabajo de Kepler y Descartes a resolver la cuestiôn. Descartes colocô un ojo al cual 
se le habra quitado la cutrcula opaca en un agujero de una contraventana. El resultado 
fue una imagen invertida formada en un trozo de papel situado en la retina. Mientras 



1016 


INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


la imagen de la retina es en verdad invertida, esto no causa un problema porque el ce- 
rebro interpréta la imagen de forma correcta. En la jerga moderna, simplemente se debe 
accéder a la estmctura de datos de forma correcta. 

Los avances mas importantes que siguieron en el estudio de la vision se dieron en 
el siglo xix. El trabajo del Helmholtz y Wundt, descrito en el Capitulo 1, estableciô la 
experimentaciôn psicofisica como una disciplina de rigor cientifico. Gracias al traba¬ 
jo de Young, Maxwell y Helmholtz, se estableciô la teoria tricromâtica de la vision de 
los colores. Se demostrô gracias al estereoscopio inventado por Wheatstone (1838) que 
los humanos pueden percibir la profundidad si las imâgenes presentadas en el ojo iz- 
quierdo y derecho tienen pequenas diferencias. El dispositivo se volviô popular en las 
salas y salones de toda Europa. El concepto bâsico de la vision estereoscôpica binocu- 
lar (dos imâgenes de una escena tomadas desde puntos de vista ligeramente diferentes 
aporta informaciôn suficiente para obtener una reconstrucciôn tridimensional de la es¬ 
cena), fue aprovechada en el campo de la fotogrametrfa. Se obtuvieron resultados ma- 
temâticos clave; por ejemplo, Kruppa (1913) probô que, dadas dos vistas de cinco pun¬ 
tos distintos, se podia construir la rotaciôn y traslaciôn entre las dos posiciones de la 
câmara asi como la profundidad de la escena (hasta un factor de escala). Aunque la ge- 
ometria de la vision estereoscôpica era entendida desde hacia largo tiempo, el proble¬ 
ma de la correspondencia en fotogrametria solia ser resuelto intentando establecer una 
correspondencia entre los puntos. La sorprendente capacidad de los humanos para re- 
solver el problema de la correspondencia fue ilustrada cuando Julesz (1971) inventô el 
estereograma de puntos aleatorios. Tanto en vision por computador como en fotogra¬ 
metria, se dedicaron muchos esfuerzos para resolver el problema de la corresponden¬ 
cia en las décadas de 1970 y 1980. 

La segunda mitad del siglo xix fue el periodo mas importante en que se fundamentô 
el estudio psicofisico de la vision humana. En la primera mitad del siglo xx, los resul¬ 
tados mas importantes de las investigaciones en vision fueron obtenidos por la escue- 
la de psicologia Gestalt, encabezado por Max Wertheimer. Con el eslogan «el todo es 
diferente de la suma de las partes», promovieron la idea de que las formas complétas, 
en lugar de componentes taies como bordes, serian las unidades primarias de la per- 
cepciôn. 

El periodo que siguiô a la Segunda Guerra Mundial fue marcado por unas activida- 
des renovadas. Los mas importantes fueron los trabajos de J. J. Gibson (1950, 1979), el 
cual indicé la importancia del flujo ôptico, asi como los gradientes de textura para la es- 
timaciôn de las variables ambientales, como la inclinaciôn y ladeo de una superficie. Vol¬ 
viô a enfatizar la importancia del estimulo y su riqueza. Gibson, Olum y Rosenblatt (1955) 
indicaron que el campo de flujo ôptico contenia suficiente informaciôn para determinar 
el egomovimiento del observador relativo al entorno. La comunidad de la vision por com¬ 
putador desarrollô principalmente en las décadas de 1980 y 1990 el trabajo en el area 
anterior y en el (matemâticamente équivalente) area de la deducciôn de la estructura por 
el movimiento. El trabajo de Koenderink y Van Doorn (1975), Ullman (1979) y Lon¬ 
guet-Higgins (1981) siguiô con esta actividad. Las primeras preocupaciones sobre la es- 
tabilidad de la estructura del movimiento fueron aliviadas por el trabajo de Tomasi y Ka- 
nade (1992) los cuales mostraron que con el uso de mültiples fotogramas, y la amplia 
linea résultante bâsica, la forma podia ser reconstruida de forma précisa. 
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Chan et al. (1998) describe el asombroso aparato visual de la mosca, la cual tiene 
una agudeza visual temporal diez veces mayor que la de los humanos. Esto es, una mos¬ 
ca puede ver una pelrcula proyectada a mas de 300 fotogramas por segundo y recono- 
cer los fotogramas individuales. 

Una innovaciôn conceptual introducida en la década de 1990 fue el estudio de la 
estructura proyectiva del movimiento. En esta area no es necesaria la calibraciôn de la 
câmara, como fue mostrado por Faugeras (1992). Este descubrimiento esta relaciona- 
do con el uso de invariantes geométricas en el reconocimiento de objetos, como fue es- 
tudiado por Mundy y Zisserman (1992), y el desarrollo de la estructura afin del movi¬ 
miento por Koenderink y Van Doom (1991). En la década de 1990, con un incremento 
del almacenamiento y velocidad de câlculo, y la disponibilidad general de video digi¬ 
tal, el anâlisis del movimiento encontre nuevas aplicaciones. Construir modelos geo- 
métricos de escenas del mundo real para ser renderizados por técnicas de computaciôn 
grâfrca résulté muy popular, conducidos por algoritmos de reconstrucciôn como el desa- 
rroliado por Debevec, Taylor y Malik (1996). El libre de Hartley y Zisserman (2000) 
y Faugeras et al. (2001) proporciona un tratamiento completo de la geometrra de mul¬ 
tiples vistas. 

En vision por computador, los primeras trabajos sobre la deduccion de la forma a 
partir de la textura corresponden a Bajscy y Liebermann ( 1976) y Stevens (1981). Mien- 
tras este trabajo era para superficies planas, un anâlisis completo para superficies cur- 
vas corresponde a Garding (1992) y Malik y Rosenholtz (1997). 

En la comunidad dedicada a la vision por computador, deducir la forma a partir de 
la textura fue estudiado primeramente por Berthold Horn (1970). Hom y Brooks (1989) 
presentaron un extenso estudio de los principales articulos en esta area. Este marco re- 
aliza una sérié de suposiciones de simplifieaciôn, el mas crrtico es aquel en el que se ig¬ 
nora el efecto de la iluminaciôn mutua. La importancia de la iluminaciôn mutua fue bien 
estudiada por la comunidad de grâficos por computador, donde el rastreo de rayos y ra- 
diosidad fueron desarrollados precisamente para considerar la iluminaciôn mutua. Una 
crrtica teôrica y emprrica se puede encontrar en Forsyth y Zisserman (1991). 

En el area de la deduccion de la forma a partir del contorno, después de las contri- 
buciones clave iniciales de Huffman (1971) y Clowes (1971), Mackworth (1973) y Su- 
gihara (1984) completaron el anâlisis para objetos poliédricos. Malik (1987) desarro¬ 
llo un esquema de etiquetado para objetos curvados lisos fragmentados. Kirousis y 
Papadimitriou (1988) mostraron que el etiquetado de llneas para escenas triédricas es 
NP-completo. 

Entender los eventos visuales en la proyecciôn de objetos curvados lisos requiere una 
interacciôn entre la geometrra diferencial y la teoria de la singularidad. El mejor estu¬ 
dio es Solid Shape de Koenderink (1990). 

El trabajo mâs relevante en el reconocimiento de objetos tridimensionales fue la te- 
sis de Roberts (1963) presentada ante el MIT. Es considerada como la primera tesis doc¬ 
toral en vision por computador e introduce algunas ideas clave, como la detecciôn de 
bordes y emparejamiento basado en modelos. La detecciôn de bordes de Canny fue in- 
troducido por Canny (1986). La idea de alineaciôn, también introducida por primera vez 
por Roberts, resurgiô en la década de 1980 en el trabajo de Lowe (1987) y Huttenlocher 
y Ullman (1990). Mejoras signifieativas en la eficiencia de la estimaciôn de la postura 
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CILINDROS 

GENERALIZADOS 


por alineaciôn fueron obtenidas por Oison (1994). Otra nueva rama en la investigaciôn 
del reconocimiento de objetos 3D fue la aproximaciôn basada en la idea de la descrip- 
ciôn de formas en términos de primitivas volumétricas, con cilindros generalizados, in- 
troducido por Tom Binford (1971), resultando muy popular. 

Mientras que la investigaciôn en vision por computador de reconocimiento de ob¬ 
jetos se enfocô en cuestiones surgidas de la proyecciôn de objetos tridimensionales en 
imâgenes bidimensionales, hubo una tradiciôn paralela en la comunidad dedicada al re¬ 
conocimiento de patrones que vio el problema como una clasificaciôn de patrones. Los 
ejemplos que motivaron esto eran de dominios como reconocimiento ôptico de carac¬ 
tères y reconocimiento de côdigos postales manuscritos donde la principal preocupaciôn 
es el aprendizaje de las variaciones tipicas caracteristicas de una clase de objetos y se- 
parar éstas de otras clases. Véase LeCun et al. (1995) para una comparaciôn de méto- 
dos. Otro trabajo de reconocimiento de objetos es el de Sirovitch y Kirby (1987) y de 
Viola y Jones (2002) para el reconocimiento de rostros. Belongie et al. (2002) descri- 
ben el método de contexto de forma. Dickmanns y Zapp (1987) demostraron en un prin- 
cipio la conducciôn de un coche controlado por vision en autopistas a gran velocidad; 
Pomerleau (1993) logrô un funcionamiento similar utilizando una red neuronal. 

Vision Science: Photons to Phenomenology de Stephen Palmer (1999) proporciona 
el tratamiento mas completo de la vision humana; los libros Eye. Brain and Vision de 
David Hubel (1988) y Perception de Irvin Rock (1984) son cortas introducciones cen- 
tradas en neurofisiologia y percepciôn respectivamente. 

En el campo de la vision por computador, el libro mas completo disponible hoy en 
dia es Computer Vision: a Modem Approach de David Forsyth y Jean Ponce. Se pue- 
den encontrar escritos cortos en los libros de Nalwa (1993) y Trucco y Verri (1998). Ro¬ 
bot Vision (Horn, 1986) y Three-Dimensional Computer Vision (Faugeras, 1993) son dos 
libros antiguos pero utiles hoy en dia, cada uno especializado en un conjunto de temas. 
El libro de David Marr, Vision (Marr, 1982) représenta un papel importante en la cone- 
xiôn de la vision por computador a las areas tradicionales de vision biolôgica (psicofi- 
sica y neurobiologia). Dos de las principales publicaciones para vision por computador 
son el IEEE Transactions on Pattern Analysis and Machine Intelligence y el International 
Journal of Computer Vision. Entre las conferencias de vision por computador estân ICCV 
(.International Conférence on Computer Vision), CVPR ( Computer Vision and Pattern 
Récognition) y ECCV ( European Conférence on Computer Vision). 



EJERCICIOS 

24.1 En la sombra de un ârbol con un denso y frondoso follaje, es posible observar cier- 
ta cantidad de puntos de luz. Sorprendentemente, todos parece que sean circulares. / Por 
qué? Después de todo, los huecos entre las hojas a través de los cuales pasa el sol, no es 
probable que sean circulares. 


24.2 Identifique el dibujo de lineas de la Figura 24.24, suponiendo que los bordes ex- 
teriores han sido etiquetados como ocultos y que todos los vértices son triédricos. Rea- 
licelo mediante un algoritmo de vuelta atrâs ( backtracking ) que examine los vértices en 
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Figura 24.24 Dibujo para ser etiquetado, en el que todos sus vértices son triédricos. 


el orden A, B, C y D, optando en cada paso por una elecciôn que sea consistente con las 
uniones y bordes etiquetados anteriormente. Pruébelo con el orden B, D, A y C. 

24.3 Considéré un cilindro infinitamente largo de radio r orientado a lo largo del 
eje y. El cilindro tiene una superficie Lambertiana vista desde una câmara a lo largo de 
la parte positiva del eje z. / ; Quc esperaria observar en la imagen si el cilindro esta ilu- 
minado por una fuente de un punto situada en el infinito en la parte positiva del eje x? 
Explique su respuesta dibujando los contornos con la misma iluminaciôn en la imagen 
proyectada. Es tan estos contornos uniformemente situados? 

24.4 Los bordes de una imagen pueden corresponder con varios eventos en una esce- 
na. Considéré la cubierta de este libro, suponga que es un dibujo de una escena tridi- 
mensional real. Identifique 10 bordes de diferente brillo en la imagen, y para cada uno, 
décida si corresponde con una discontinuidad en (a) profundidad, (b) superficie normal 
o (d) iluminaciôn. 

24.5 Demuestre que la convoluciôn con una funciôn / dada se conmuta con la dife- 
renciaciôn; esto es, demuestre que (/* g)' = f* g'. 

24.6 Se esta considerando un sistema estereoscôpico para realizar mapas de un terre- 
no. Consistirâ en dos câmaras CCD, cada una tiene 512 X 512 pixeles en un sensor cua- 
drado de 10 cm X 10 cm. Las lentes utilizadas tienen una longitud focal de 16 cm, con 
el foco fijo en el infinito. Para puntos correspondientes (u v v, ) en la imagen izquierda y 
(w 2 , v 2 ) en la imagen de la derecha, Vj = v, porque el eje x en los pianos de las dos imâ- 
genes son paralelos a las lineas epipolares. Los ejes ôpticos de las dos câmaras son pa- 
ralelos. La linea base entre las dos câmaras es de un métro. 

a) Si el rango mâs cercano que va a ser medido es de 16 métros, / cuâl es la mâxi- 
ma disparidad que se puede dar (en pixeles)? 
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b) Cuâl es el rango de resoluciôn a los 16 métros, debido al espaciamiento de los 
pixeles? 

c) Que rango corresponde a una disparidad de un pixel? 

24.7 Suponga que deseamos utilizar el algoritmo de alineacion en una situaciôn in¬ 
dustrial en la que piezas planas se mueven por una cinta transportadora y son fotogra- 
fiadas por una câmara situada verticalmente por encima de la cinta. La postura de las 
partes es especifrcada por très variables, una para la rotaciôn y dos para la posicion bi- 
dimensional. Esto simplifica el problema y la funcion Encontrar-Transformada ne- 
cesita ünicamente dos pares de imâgenes correspondientes y rasgos del modelo para de- 
terminar la postura. Détermine la complejidad en el peor caso del procedimiento de 
alineacion. 

24.8 La Figura 24.25 muestra dos câmaras en X e Y observando una escena. Dibuje 
la imagen vista por cada câmara, suponiendo que todos los puntos frjados estén en el mis- 
mo piano horizontal. / ; Qué conclusion se puede obtener de estas dos imâgenes sobre las 
distancias relativas de los puntos A, B, C, D y E desde la linea base de la câmara, y con 
qué base? 

24.9 Détermine cuâl de las siguientes sentencias son verdaderas y cuâles son falsas: 

a) Buscar puntos correspondientes en imâgenes en estéreo es la fase mâs sencilla 
del proceso de büsqueda de la profundidad en estéreo. 

b) La obtencion de la forma a partir de la textura se puede realizar proyectando una 
cuadrfcula de lineas de luz en la escena. 

c ) El esquema de etiquetado de Huffman-Clowes puede resolver todos los obje- 
tos poliédricos. 

d ) En los dibujos de lineas de objetos curvos, la étiqueta de la linea puede cambiar 
de un extremo de la linea a otro. 

e ) En vistas estéreo de la misma escena, se puede obtener mayor précision en los 
câlculos de profundidad si las posiciones de las dos câmaras estân mâs separa- 
das. 



Figura 24.25 Vista superior de un sistema de vision con dos câmaras observando una botella con 
una pared detrâs. 
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/) Lfneas con la misma longitud en la escena siempre proyectan iguales longitu¬ 
des en la imagen. 

g) Lfneas rectas en la imagen, corresponden necesariamente con lfneas rectas en 
la escena. 

24.10 La Figura 24.23 esta tomada desde el punto de vista de un coche en el carril de 
salida de una autopista. Se pueden observar dos coches en el carril inmediato de la iz- 
quierda. Qué razones tiene que tener el observador para decidir que uno esta mas cer- 
ca que el otro? 



25 Robôtica 


Donde los agentes estân dotados de efectores fîsicos para hacer sus travesuras. 


25.1 Introduccion 


Los robots son agentes fîsicos que realizan tareas mediante la manipulacion fîsica del 
mundo. Para realizar dichas tareas estân equipados con efectores como piernas, ruedas, 
articulaciones y pinzas. Los efectores tienen un ünico proposito: transmitir fuerzas fîsi- 
cas al entorno 1 . Los robots también estân equipados con sensores, que les permiten per- 
cibir el entorno. Hoy en dia, los robots utilizan diversos tipos de sensores, incluyendo 
câmaras y ultrasonidos para medir el entorno, y giroscopios y acelerometros para me- 
dir el propio movimiento del robot. 

La mayoria de los robots actuales se basan en una de las siguientes très categorias. 
manipuladores Manipuladores, o brazos roboticos estân fîsicamente anclados en su lugar de trabajo, 
por ejemplo en una linea de ensamblaje o en la estacion espacial internacional. El mo¬ 
vimiento de los robots manipuladores normalmente requiere un desplazamiento en ca- 
dena de las articulaciones para posicionar a los efectores en cualquier lugar del entorno 
de trabajo. Los manipuladores son los robots industriales mâs extendidos con mâs de un 
millon de unidades instaladas en el mundo. Algunos manipuladores moviles se utilizan 
en hospitales para asistir a cirujanos. Pocos fabricantes de coches pueden sobrevivir sin 
robots manipuladores, incluso algunos robots manipuladores se utilizan para crear ilus- 
traciones y cuadros originales. 


ROBOTS 

EFECTOR 

SENSOR 


1 En el Capitulo 2 nosotros hablamos sobre los actuadores, no sobre efectores. Un actuador es una linea de 
control que transmite un comando a un efector; el efector es el dispositivo flsico en si mismo. 
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robots môviles La segunda categoria son los robots môviles. Los robots môviles se desplazan por 

su entorno utilizando ruedas, piemas o mecanismos similares. Estos han utilizado para 
distribuir comidas en hospitales, mover contenedores a los muelles de carga y tareas si¬ 
milares. No hace mucho hemos encontrado un ejemplo de robot movil: el NavLab, 
ulv vehfculo terrestre sin tripulaciôn ( unmanned land vehicle, ULV) capaz de realizar un 

desplazamiento autônomo para la navegaciôn por autopistas. Otros tipos de robots mô- 
aav viles incluyen los vehiculos aéreos sin tripulaciôn ( unmanned air vehicle s, UAV), uti- 

lizados frecuentemente para tareas de vigilancia, fumigaciôn y operaciones militares; los 
auv vehiculos submarinos sin tripulaciôn ( autonomous underwater vehicles, AUV) se 

usan en exploraciôn del fondo marino, paseos planetarios, como el robot Sojourner 
mostrado en la Figura 25. l(a). 

El tercer tipo es un hfbrido: un robot movil equipado con manipuladores. Esto incluye 
a los robots humanoïdes, cuyo diseno se asemeja al torso humano. La Figura 25.1 (b) mues- 
tra dos de estos robots, los dos construidos por Honda Corp., en Japon. Los robots hibri- 
dos pueden aplicar sus efectores en un campo mas amplio que los robots anclados pero las 
tareas son mas complejas porque no tienen la rigidez que el anclaje proporciona. 

El campo de la robôtica también incluye prôtesis artificiales (labios, orejas, ojos...), 
entomos inteligentes (como una casa equipada con sensores y efectores), y sistemas mul- 
ticuerpo, cuando la acciôn robôtica se lleva a cabo mediante la cooperaciôn de un en- 
jambre de pequenos robots. 

Los robots reales normalmente suelen hacer frente a ambientes que solo son obser¬ 
vables parcialmente, estocâsticos, dinâmicos y continuos. Algunos de estos ambientes 
son a la vez secuenciales y multiagente. Los observados parcialmente y los estocâsticos 
son el resultado de interactuar con un entorno grande y complejo. El robot no puede ver 


ROBOTS 

humanoïdes 



(a) (b) 


Figura 25.1 (a) NASA’s Sojourner, un robot movil explorando la superficie de Marte en julio de 

1997. (b) Robots Humanoides P3 y Asimo de la casa Honda. 
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alrededor de las esquinas, y las ôrdenes de movimiento estân sujetas a la incertidumbre 
generada por el deslizamiento y la fricciôn de los engranajes. Ademâs el obstinado 
mundo real rechaza operar mas râpido que el tiempo real. En un entorno simulado, es 
posible utilizar algoritmos sencillos (como el algoritmo Q-learning descrito en el Ca- 
pitulo 21) para aprender en unas pocas horas de proceso realizando millones de prue- 
bas. En un entorno real dichas pruebas tardarian anos en realizarse. Ademâs los fallos 
con un robot real pueden ser peligrosos, cosa que en un sistema simulado no pasa. Los 
sistemas robôticos prâcticos necesitan que se incorpore conocimiento inicial sobre el 
robot, el ambiente fisico y las tareas que el robot realizarâ para que el robot pueda apren¬ 
der de manera râpida y segura. 


25.2 Hardware robotico 


Hasta ahora en este libro se ha comentado la arquitectura de agente (sensores, efectores 
y procesadores) y por tanto nos hemos concentrado en el programa de agentes. El éxi- 
to de los robots reales dépende como mtnimo de que el diseno de los sensores y los efec¬ 
tores sean apropiados para la tarea a realizar. 


Sensores 

sensores pasivos Los sensores son la interfaz perceptual entre el robot y su entorno. Los sensores pasi- 
vos, como las câmaras, son observadores veridicos del entorno: capturan las senales que 
sensores activos son generadas por otras fuentes en el entorno. Los sensores activos, como un sonar, emi- 
ten energia dentro del entorno. Se basa en el hecho de que esta energia sera reflejada y 
devuelta al sensor. Los sensores activos suelen proporcionar mas informaciôn que los 
pasivos pero a expensas de un mayor consumo y con el peligro de causar interferencias 
cuando se usan multiples sensores al mismo tiempo. Sean activos o pasivos los senso¬ 
res se pueden dividir en très tipos, dependiendo de si détermina distancias a objetos, imâ- 
genes del entorno o propiedades del robot en si mismo. 

Muchos robots môviles hacen uso de escâneres de rango, se trata de sensores que 
miden la distancia a objetos cercanos. Uno de los mas comunes es el sensor de sonar, 
también conocido como transductor ultrasônico. Los sensores de sonar emiten ondas de 
sonido direccionales, que son reflejadas por objetos, haciendo que parte del sonido 
vuelva al sensor. El tiempo y la intensidad de la senal de retomo proporcionan informaciôn 
sobre la distancia a los objetos cercanos. Los sônares submarinos son la tecnologia ele- 
gida por los AUVs. En tierra, los sônares se utilizan principalmente en rangos cercanos 
para evitar colisiones, debido a su limitada resoluciôn angular. Las alternativas al sonar 
incluyen el radar (utilizado principalmente en aviaciôn) y el laser. Un escâner de rango 
bas ado en laser se muestra en la Ligura 25.2. 

Algunos sensores de rango miden distancias cortas o muy cortas. Entre ellos se in¬ 
cluyen los sensores tactiles como las antenas 2 , interruptores y piel sintética sensible al 


SENSORES TÂCTILES 


ESCÂNERES 
DE RANGO 

SENSOR DE SONAR 


2 Nota del traductor: pequenas antenas sensibles como las de los insectos, del original «whiskers». 
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SISTEMA DE 
POSICiONAMIENTO 
GLOBAL(GPS) 


GPS DIFERENCIALES 


SENSORES DE 
IMAGEN 


SENSORES 

PERCEPTORES 


DECODIFICADORES 
DE EJES 


ODOMETRIA 



(a) (b) 


Figura 25.2 (a) El escâner de rango SICK LMS basado en Laser, un popular sensor de rango para 

robots môviles. (b) Lectura de rango obtenida con un sensor montado horizontalmente, proyecta- 
da en un mapa de entomo de dos dimensiones. 


tacto. Al otro lado del espectro nos encontramos con GPS (sistema de posicionamien- 
to global), el cual mide la distancia a una sérié de satélites que emiten seriales de pulso. 
Actualmente hay docenas de satélites en ôrbita cada uno transmitiendo seriales en dos 
frecuencias diferentes. Los receptores de GPS pueden recuperar la distancia a los saté¬ 
lites analizando los retardos de fase de la serial. Mediante la triangulacion de la serial 
desde mültiples satélites los receptores de GPS pueden determinar la localizacion ab- 
soluta en la tierra con unos pocos métros de error. Los GPS diferenciales incluyen un 
segundo grupo de receptores con conocimiento de la localizacion, proporcionando una 
exactitud milimétrica en condiciones idéales. Desafortunadamente, los GPS no funcio- 
nan en interiores ni bajo el agua. 

La segunda clase importante de sensores son los sensores de imagen, las câmaras 
que nos proporcionan imâgenes del entorno y, utilizando las técnicas de vision por com- 
putador del Capitulo 24, aplican diversos modelos y extraen caracteristicas del entorno. 
La vision estereoscôpica es particularmente importante en robotica porque puede cap- 
turar informaciôn de profundidad; aunque su futuro es incierto ya que se estân desarro- 
llando nuevas tecnologias de rango con funcionamiento satisfactorio. 

La tercera clase importante son los sensores perceptores, los cuales informan al ro¬ 
bot de su propio estado. Para medir exactamente la configuracion de una articulacion ro¬ 
botica, los motores estân normalmente equipados con decodificadores de ejes que 
cuentan las revoluciones de los motores con pequenos incrementos. En un brazo de ro¬ 
bot dichos decodificadores pueden proporcionar medidas exactas sobre cualquier perîo- 
do de tiempo. En un robot movil los decodificadores informan de las vueltas de las medas, 
estas vueltas pueden ser utilizadas como medidas para la odometrfa (la medida de la 
distancia recorrida). Desafortunadamente las ruedas tienden a patinar o frenar de ma- 
nera que la odometrfa solo es exacta para desplazamientos muy cortos. Fuerzas exter- 
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nas, corrientes marinas para los AUV’s y el viento para los UAV incrementan la incer- 
tidumbre de su posicionamiento. Los sensores inerciales, como los giroscopios, nos pue- 
den ayudar pero no pueden evitar la inévitable acumulaciôn de incertidumbre respecto 
a la posiciôn del robot. 

Otros aspectos importantes del estado del robot son medidos por los sensores de fuer- 
za y torsion. Estos son indispensables cuando los robots manejan objetos fragiles u ob- 
jetos cuya forma y localizaciôn son desconocidos. Imagine un robot manipulador de una 
tonelada manipulando un destornillador con una bombilla. Los sensores de fuerza pro- 
porcionan al robot el sentir como de fuerte se esta agarrando la bombilla y el sensor de 
torsion como de fuerte la esta girando. Los buenos sensores pueden medir fuerzas en très 
dimensiones y giros en los très ejes. 


Efectores 

Los efectores son el medio por el cual los robots se mueven y cambian la forma de sus 
cuerpos. Para entender el diseno de los efectores, nos ayudarâ primero hablar del mo- 
vimiento y de la forma de manera abstracta, utilizando el concepto de grados de liber- 
tad. Nosotros contamos los grados de libertad como cada direction independiente del 
robot en la cual uno o varios de sus efectores se puedan mover. Por ejemplo un brazo ri- 
gido de robot como un robot de tipo AUV que tenga seis grados de libertad, très de los 
cuales (x, y, z) lo localizan en el espacio y très mas son su orientation angular conoci- 
das como desvio, balanceo y cabeceo (yaw, mil y pitch). Estos seis grados definen su 
estado cinemâtico o pose del robot. El estado dinâmico del robot incluye una dimen¬ 
sion adicional para evaluar el cambio cinemâtico de cada dimension. 

Para cuerpos no rfgidos, hay grados adicionales de libertad dentro del robot. Por ejem¬ 
plo en un brazo humano el codo tiene un grado de libertad (se puede flexionar en una 
direction) y la muneca tiene très grados de libertad (se puede mover de arriba abajo, de 
lado a lado y también puede rotar). Las articulaciones de los robots tienen uno, dos o 
très grados de libertad cada una. Seis grados de libertad son los mmimos requeridos para 
poner un objeto, como una mano, en una position determinada con una orientation de- 
terminada. El brazo mostrado en la Figura 25.3(a) tiene exactamente seis grados de li¬ 
bertad, creado con cinco articulaciones de révolution que generan movimiento 
rotacional y una articulation prismâtica que généra desplazamiento latéral. Se puede 
verificar que el brazo humano en su totalidad tiene mas de seis grados de libertad con 
un simple experimento: ponga su mano en la mesa, dese cuenta de que aün tiene liber¬ 
tad para rotar su codo sin cambiar la configuration de su mano. Los manipuladores que 
tienen mas grados de libertad que los requeridos para poner un objeto en un lugar de- 
terminado son mas faciles de controlar que los robots que solo tienen el mmimo nüme- 
ro de grados de libertad. 

Para los robots moviles los grados de libertad no son necesariamente los mismos que 
el nümero de elementos actuadores. Considéré, por ejemplo, su coche: se puede mover 
hacia delante y hacia atrâs y puede girar, otorgândole dos grados de libertad. En con¬ 
traste, la cinemâtica de un coche es tridimensional: en una superficie abierta, uno pue¬ 
de fâcilmente mover un coche a cualquier punto (x, y) en cualquier orientation (véase 
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Figura 25.3(b)). Asi pues el coche tiene très grados efectivos de libertad pero solo dos 
grados contrôlables de libertad. Se llama robot no holonômico a aquel que tenga mas 
grados de libertad efectivos que contrôlables y holonômico si tienen el mismo numéro. 
Los robots holonomicos son mas faciles de controlar (séria mas fâcil aparcar un coche 
que se pueda mover de lado ademâs de hacia delante y hacia atrâs) pero los robots ho¬ 
lonomicos son mas complejos mecânicamente. La mayoria de los brazos roboticos son 
holonomicos al igual que la mayoria de los robots moviles son no holonomicos. 

Para los robots moviles, existen un cierto nümero de mecanismos de movimiento, 
incluyendo ruedas, orugas y piernas. Los robots de impulsion diferencial poseen dos 
medas independientes (u orugas), una a cada lado, como en un tanque militar. Si ambas 
ruedas se mueven a la misma velocidad el robot se mueve en linea recta. Si se mueven 
en direcciones opuestas el robot gira sobre si mismo. Una altemativa es la conducciôn 
sincronizada, en la cual cada rueda se puede mover y rotar en su propio eje. Esto pue- 
de fâcilmente llevar al caos, si no se limita que todas las ruedas siempre apunten a la mis¬ 
ma direccion y se muevan a la misma velocidad. Tanto la impulsion diferencial como la 
conducciôn sincronizada son no holonomicas. Algunos robots mas caros utilizan ma- 
nejadores holonomicos, los cuales utilizan normalmente très o mas ruedas que pueden 
ser movidas y orientadas independientemente. 

Las piernas roboticas, contrariamente a las medas, pueden manejarse por terreno 
abrupto. No obstante las piernas son notoriamente lentas en superficies planas ademâs 
de ser mecânicamente dificiles de construir. Los investigadores en robotica han tratado 
de disenar robots desde una hasta mültiples piernas. Los robots con piernas pueden ca- 
minar, correr, saltar (como se puede ver en el robot de la Figura 25.4(a)). Este robot es 
dinâmicamente estable, es decir, puede permanecer vertical mientras camina. Un ro¬ 
bot que pueda permanecer vertical sin mover sus piernas se llama estâticamente esta¬ 
ble. Un robot es estâticamente estable si su centro de gravedad estâ encima del poligono 
que une sus piernas. 

Otros tipos de robots moviles utilizan una gran cantidad de mecanismos diferentes 
para desplazarse. Los vehiculos de remolque normalmente utilizan propulsores o turbi¬ 
nas. Los dirigibles roboticos se basan en efectos termodinâmicos que los mantienen a 
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flote. Los vehiculos auténomos submarinos normalmente utilizan propulsores similares 
a los usados en submarinos. 

Por si solos los sensores y efectores no hacen un robot. Un robot compléta también 
necesita una fuente de energia para hacer funcionar sus efectores. El motor eléctrico es 
el mecanismo mas popular para la manipulacion y la locomociôn pero la actuaciôn neu- 
mâtica, utilizando gas comprimido y la actuaciôn hidrâulica, utilizando fluidos pre- 
surizados, también tienen sus nichos de aplicacion. La mayoria de los robots también 
tienen medios para la comunicacion digital como una red inalâmbrica. Por ültimo tiene 
que haber un cuerpo para ensamblar las diferentes piezas del robot. 


25.3 Percepcion robotica 


La percepcion es el proceso por el cual los sensores del robot elaboran un mapa del en- 
torno utilizando una determinada representacion interna. La percepcion es complicada 
porque en general los sensores tienen ruido y el entorno es parcialmente observable, im- 
predecible y dinâmico. En general una buena representacion interna ha de tener très pro- 
piedades: tiene que contener la informacion suficiente para que el robot tome las 
decisiones apropiadas, tiene que estar estructurada para que se pueda actualizar efi- 
cientemente y tiene que ser natural, es decir, las variables internas han de corresponder 
con estados en el mundo real. 
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En el Capftulo 15, nosotros decimos que los filtres de Kalman, HMMs, y las redes 
Bayesianas dinâmicas pueden representar las transiciones y los modelos de sensores a 
partir de entornos observables, y nosotros describimos los algoritmos para actualizar los 
estados de creencia (la distribuciôn de la probabilidad a posteriori en el entorno de las 
variables de estado). Algunos modelos dinâmicos de redes de Bayes para este proceso 
se muestran en el Capltulo 15. Para los problemas de robôtica normalmente se incluyen 
las acciones ya realizas por el robot como variables observadas (véase Figura 17.9). La 
Figura 25.5 muestra la notaciôn utilizada en este capltulo: X, es el estado del entorno 
(incluyendo el robot) en el instante t, Z, es la observaciôn recibida en el instante t, y A t 
es la accion realizada después de recibir la observaciôn. 

La tarea de filtrar, o actualizar la creencia de estados, es esencialmente la misma 
que se ha descrito en el Capltulo 15. Hay que computar la nueva creencia del estado, 
P(X, +1 1 z H+1 , Oj. f ), desde el estado actual P(X, | z H , a w _j) y la nueva observaciôn z f+1 . 
Las principales diferencias son que (1) estamos condicionados expllcitamente por las ac¬ 
ciones, as! como por las observaciones, y (2) ahora nos enfrentamos a variables conti¬ 
nuas y no discretas. Asl, nosotros modificamos el filtrado recursivo de la Ecuaciôn 15.3 
para utilizar integraciôn en vez de suma: 


P(X f +l I Z l:r+1> a \-.t ) 


aP(z, +1 


X, +1 ) 



x„ o f ) P(x f I z 1:f , a ht _ l )dx r 


(25.1) 


La ecuaciôn establece que el valor posterior a las variables de estado X en el instante de 
tiempo t + 1 es calculado recursivamente a partir del estado correspondiente estimado 
un instante de tiempo antes. Este câlculo incluye la accion previa a t y la actual medida 
z r+1 . Por ejemplo, si nuestra meta es desarrollar un robot que juegue al futbol, X t+1 pue- 
de ser la localizaciôn de la pelota con respecta al robot. El posterior P(X, | z H , o,.,_,) es 
la probabilidad de distribuciôn en todos los estados que capturan qué sabemos de las 
medidas realizadas por el sensor. La Ecuaciôn (25.1) nos dice como obtener recursiva¬ 
mente esta localizaciôn, incrementando las médias de los sensores (por ejemplo, con 
imâgenes) y los comandos de movimiento del robot. La probabilidad P(X, + , | x t , a t ) se 
llama el modelo transicional o modelo de movimiento, y P(z, +1 1 X f+1 ) es el modelo 
del sensor. 
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Localizaciôn 

La localizaciôn es un ejemplo genérico de percepciôn robôtica. Es el problema de de- 
terminar dônde estân las cosas. La localizaciôn es uno de los problemas mas relevantes 
de la percepciôn robôtica debido a que el conocimiento sobre dônde estân las cosas es 
el nücleo principal para una satisfactoria interacciôn fïsica. Por ejemplo, los manipu- 
ladores del robot deben saber la localizaciôn de los objetos que han de manipular. Los 
robots navegadores deben saber dônde estân para poder encontrar las localizaciones 
requeridas. 

El problema de la localizaciôn viene dado en très formas con dificultad incrémen¬ 
tal. Si la posiciôn inicial del objeto es conocida, enfonces la localizaciôn es un proble¬ 
ma de seguimiento ( tracking ). Los problemas de seguimiento se caracterizan por una 
incertidumbre limitada. Mâs dificil es el problema de la localizaciôn global, en el cual 
la posiciôn inicial del objeto es desconocida. La localizaciôn global se convierte en el 
problema de seguimiento una vez que el objeto de interés ha sido localizado, este tam- 
bién incluye fases en las que el robot tiene que manejar incertidumbre. Para terminar noso- 
tros podemos ser malos con nuestro robot y «secuestrar» el objeto que estâ intentando 
localizar. La localizaciôn en las condiciones anteriores es conocida como el problema 
del secuestro. El secuestro se utiliza normalmente para probar lo robusta que es una téc- 
nica de localizaciôn bajo condiciones extremas. 

Para simplificar, asumamos que el robot se mueve lentamente en un piano y que se 
le da un mapa exacto del entomo. La posiciôn de dicho môvil se define por sus dos co- 
ordenadas cartesianas con los valores x, y, y la orientaciôn 6, como se ilustra en la Fi¬ 
gura 25.6(a). (Obsérvese que se han excluido las correspondientes velocidades, por lo 
que es un modelo cinemâtico en vez de uno dinâmico.) Si ordenados dichos valores en 
un vector, enfonces cualquier estado particular estâ dado por X, = (x t , y t , 0) . 

En la aproximaciôn cinemâtica, cada acciôn consiste es una especificaciôn «instan- 
tânea» de dos velocidades, una velocidad transaccional v, y una velocidad rotacional w r 
Para pequenos intervalos A,, un modelo determimstico de movimiento de dicho robot 
viene dado por: 

( v,A t cos 0\ 
v,A t sen 0, 

w t At J 

La notaciôn X se refiere a un estado determimstico de predicciôn. Por supuesto, los ro¬ 
bots fisicos son algo impredecibles. Este estâ normalmente modelado usando una dis- 
tribuciôn gaussiana con media/(X,, v,, w f ) y una covarianza E t . ( Véase el Apéndice A 
para la definiciôn matemâtica). 

P(X, +1 |X„v„w,) = N(X t+1 , E t ) 

Después, nosotros necesitamos un modelo de sensor. Se considerarân dos clases de mo- 
delos de sensor. La primera asume que el sensor détecta caracteristicas estables y reco- 
nocibles del entorno, llamadas marcadores. Para cada marcador se informa de su rango 
y capacidad. Supôngase que el estado del robot es x, = (x t , y,, 0,) T y se détecta un mar- 


MARCADORES 
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Figura 25.6 (a) Un modelo simplificado de cinemâtica para un robot movil. El robot se muestra 

como un cfrculo con una marca mostrando la direccion a la que mira el robot. Las posiciones y las 
orientaciones en t y t + 1 se muestran, con las actualizaciones dadas por v,A, y vr r A, respectivamente. 
También se muestra un marcador en Çq, y,) observado en el instante t. (b) El modelo del escanea- 
dor de rango. Dos posibles poses del robot se muestran para una medida de rango dada 
(Zj, z 2 , z 3 , z 4 ). Es mucho mas probable que la pose de la izquierda genere el modelo del escaneador 
de rango que la pose de la derecha. 


cador cuya localizacion es conocida como (x t , y, ) . Sin ruido, el rango y la capacidad 
pueden calcularse por simple geometria (véase la Figura 25.6(a)). La prédiction exac- 
ta del rango e intensidad observadas séria: 

/ V(x f -A-.) 2 + (y f -y,) 2 \ 

~ ^( x r) — l arctan ^^ — 6 I 

\ X, -X t J 

Otra vez, el ruido distorsiona nuestras medidas. Para simplificar, podemos suponer un 
ruido gaussiano con covarianza E. 

P{ z, | x ; ) = N{z„ Z_) 

Un modelo diferente de sensor es a menudo mas apropiado para los sensores de rango 
de la clase mostrada en la Figura 25.2. Dichos sensores producen un vector de valores 
z, = (z 1( ..., z M ) , con intensidad fijada por el robot, dada una position x ; , siendo z, el 
rango de la j-ésima direccion desde x f al obstâculo mas cercano. Como antes, se utili- 
zarâ mido gaussiano. Normalmente asumimos que los errores para las diferentes direc- 
ciones de medida son independientes y tienen distribuciôn idéntica, con lo que tenemos: 

M „ 2 . 

P( z, | x r ) = a ]^[ e (z j Z J )/2 °" 

7=1 


La Figura 25.6(b) muestra un ejemplo de un escâner de cuatro haces y dos posibles po- 
siciones del robot, una de la cual es supuestamente producida por la observacion del 
escâner y la otra no. Comparando el modelo del escâner de rango con el modelo del 
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marcador, podemos ver que el modelo del escâner de rango tiene la ventaja de que no 
es necesario identificar el marcador antes de que el escâner pueda ser interpretado; de 
hecho, en la Figura 25.6(b), el robot hace frente a una pared sin rangos distintivos. Por 
otra parte, si hay un marcador distintivo éste nos puede ayudar a localizarnos inme- 
diatamente. 

En el Capitulo 15 se describe el filtro de Kalman, que représenta la creencia de un 
estado como una ünica funcion multivariada de Gauss, y el filtro de particulas, que re¬ 
présenta el estado de creencia de una colecciôn de particulas que corresponden a esta- 
dos. Los algoritmos modernos de localizacion usan una o dos representaciones de la 
creencia del robot P(X, | z w , 

La localizacion utilizando filtrado de particulas se llama localizacion de Monte-Car¬ 
lo o MCL. El algoritmo MCL es esencialmente idéntico al algoritmo de filtrado de par¬ 
ticulas mostrado en laLigura 15.15. Todo lo que necesitamos es proporcionar el modelo 
apropiado de movimiento y modelo del sensor. La Ligura 25.7 nos muestra una version 
utilizando el modelo del escâner de rango. El funcionamiento del algoritmo se ilustra 
en la Ligura 25.8 donde el robot localiza su posicion dentro de un edificio de oficinas. 
En la primera imagen las particulas estân uniformemente distribuidas basadas en el co- 
nocimiento a priori, indicando la incertidumbre global sobre la posicion del robot. En 
la segunda imagen, el primer conjunto de medidas hace que las particulas se agrupen en 
âreas de alta creencia a posteriori. En la tercera hay suficientes medidas para que todas 
las particulas estén en una posicion determinada. 

El filtro de Kalman es otra manera de localizar. Un filtro de Kalman représenta la 
creencia a posterior P(X, | z w , a Vt _^) con una gaussiana. La media de esta gaussiana se 
dénota por f± ! y su covarianza X,. El problema principal con la creencia gaussiana es que 


funcion LocALiZACiÔN-MoNTE-CARLO(a, z, N, modelo, mapa ) devuelve un conjunto de muestras 

entradas: a, la orden previa de movimiento del robot 

z, un escâner de rango con M lecturas, de z, a z M 
N, el numéro de muestras a ser mantenidas 

modelo: un modelo probabilista del entorno con posicion inicial P(X 0 ), 

modelo de movimiento P( X, | X 0 , A 0 ) y rango del sensor con ruido P(Z \ Z), 
mapa : un mapa en dos dimensiones del entorno 
estâtica: S, un vector de muestras de tamano N, inicialmente generado por P(X 0 ) 
variables locales: W, un vector de pesos de tamano N 

para i = 1 hasta N hacer 

S[t] muestra de P(Xj | X 0 = .S'[il, A 0 = a) 

W[ï\ <- 1 

para 7=1 hasta M hacer 

z Rango-Exacto(7, mapa) 

W[i ] <- W[i\ ■ P(Z = Zj\Z = z) 

S <— Muestra-Ponderada-Con-Reemplazamiento(N, S, W) 

devolver S 


Figura 25.7 Algoritmo de localizacion de Monte-Carlo usando un modelo de escâner de rango 
con ruido independiente. 
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Figura 25.8 Algoritmo de localizaciôn Monte-Carlo, un filtro de partfculas para localizaciôn mô- 
vil de robots. Arriba: inicialmente incertidumbre global. Centro: incertidumbre después de nave- 
gar por el pasillo. Bajo: incertidumbre después de entrar en una oficina distintiva. 
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Figura 25.9 Ilustraciôn unidimensional de un modelo lineal de movimiento: (a) Funcion/, y la 
proyecciôn de una media /x, y un intervalo de covarianza (basado en Z,) dentro del tiempo t+ 1 . (b) 
La version lineal es la tangente de/en /x r La proyecciôn de media jj, t es correcta. No obstante, la 
covarianza proyectada Z m difiere de E (+1 . 
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EXPANSION 
DE TAYLOR 


solo se garantiza para modelos lineales/y modelos de medidas lineales h. Para mode¬ 
los/y h no lineales el resultado de actualizar el filtro normalmente no es una gaussia- 
na. Asi, los algoritmos que utilizan el filtro de Kalman para localizaciôn linealizan el 
movimiento y los modelos de los sensores. La linealizacion es una aproximaciôn local 
de una funcion no lineal por una funcion lineal. La Figura 25.9 ilustra el concepto de 
la linealizacion para un modelo (unidimensional) de movimiento del robot. En al iz- 
quierda se représenta un modelo no lineal de movimiento f(x t , a) (el control de a t se 
omite en este grafo ya que no es representativo para la linealizacion). En la derecha, esta 
funcion se aproxima por una funcion lineal /(x r , a). Esta funcion lineal es tangente a/ 
en el punto f± n la media de nuestro estado estimado en el instante de tiempo t. Dicha li¬ 
nealizacion se llama Expansion de Taylor (de primer grado). Un filtro de Kalman que 
linealiza/y h via expansiones de Taylor se llama filtro de Kalman extendido o (EKF). 
La Figura 25.10 muestra una secuencia de estimaciones de un robot sobre el que fun- 
ciona el algoritmo de localizaciôn basado en un filtro de Kalman. Cuando se mueve el 
robot, la incertidumbre de su localizaciôn se incrementa, como se muestra en el tama- 



Marcador 


Figura 25.10 Ejemplo de localizaciôn utilizando el filtro extendido de Kalman. Los movimien- 
tos del robot en una linea recta. Conforme progresa su incertidumbre se incrementa gradualmen- 
te, como se ilustra por las elipses de error. Cuando se observa un marcador con una posiciôn 
conocida la incertidumbre se reduce. 
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no de sus elipses de error. El error disminuye conforme va detectando el marcador. El 
error finalmente se incrementa otra vez cuando el robot pierde dicho marcador. Los al- 
goritmos EKF funcionan correctamente si los marcadores se identifican fâcilmente. En 
otro caso, la distribucion a posteriori puede ser multimodal como en la Figura 25.8(b). 
El problema de la necesidad de conocimiento de la identificaciôn de marcadores es un 
ejemplo del problema de asociaciôn de datos discutido al final del Capitulo 15. 


Generaciôn de mapas 


LOCALIZACIÔN Y 

MAPEADO 

SIMULTÂNEO 


Hasta ahora hemos discutido el problema de la localizacion de un ünico objeto. En ro- 
bôtica habitualmente se intenta localizar muchos objetos. El ejemplo clâsico de dicho 
problema es la construcciôn de mapas mediante robots. Imagine un robot al cual no se 
le da un mapa del entorno. El robot ha de construirse su propio mapa. Claramente los 
humanos hemos desarrollado habilidades para realizar mapas, desde lugares pequenos 
hasta del mundo entero. Por tanto un problema a abordar por la robotica es disenar al- 
goritmos para que los robots puedan hacer lo mismo. 

En la literatura, a la generaciôn de mapas mediante robots muchas veces se le dé¬ 
nomma localizacion y mapeado simultâneo, abreviado como SLAM. No solo el ro¬ 
bot ha de ser capaz de construir el mapa, lo debe hacer sin ningün conocimiento sobre 
dônde esta. SLAM es uno de los problemas principales de la robotica. Considerare- 
mos la version en la cual el entorno es fijo. Esto es suficientemente complicado; aun 
asi es mucho mas complejo cuando el entorno puede cambiar mientras que el robot se 
mueve. 

Desde una perspectiva estadistica, la generaciôn de mapas es un problema de infe- 
rencia Bayesiano, como la localizacion. Si denotamos el mapa por M y la posiciôn del 
robot en el tiempo t por X f como anteriormente, podemos rescribir la Ecuaciôn (25.1) 
para incluir el mapa a posteriori: 


P(X f+1 , M | z 1:f+1 , a l:l ) = aP( z t+ i | X, +1 , M) / P(X, +1 , | x„ a,) P(x„ M | z 1:t , a Ut _ù dx, 


Esta ecuaciôn nos trae buenas noticias: la distribucion condicional necesita incorporar 
acciones y medidas que son esencialmente las mismas que en el problema de la locali- 
zaciôn del robot. La advertencia principal es que el nuevo espacio de estados (el espacio 
de todas las poses del robot y todos los mapas) tiene muchas dimensiones. Imagine que 
quiere representar un edificio entero de manera fotogrâfica. Esto posiblemente requeri- 
ria cientos de millones de numéros. Cada nümero séria una variable aleatoria y contri- 
buiria a la enorme dimension del espacio de estados. Lo que hace este problema aün mas 
dificil es el hecho de que el robot no tiene por qué saber como de grande es el entorno. 
Asi la dimension de M tiene que ser ajustada dinâmicamente durante el mapeado. 

Probablemente el método mas utilizado para el problema SLAM es el EKF. Este 
usualmente se combina con un modelo de detecciôn de marcadores y requiere que to¬ 
dos los marcadores sean distinguibles. En la secciôn anterior la estimaciôn a posteriori 
se représenté utilizando una Gaussiana con una media fx t y covarianza 2,. En la aproxi- 
maciôn del EKF al problema SLAM, la estimaciôn posterior es otra vez gaussiana pero 
ahora la media /x ( es un vector mucho mas grande. Comprende no solo la pose del ro- 
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bot sino también la localizacion de todas las caracteristicas (o marcadores) en el mapa. 
Si hay n marcadores, este vector séria de dimension 2 n + 3 (mantiene dos valores para 
especificar la localizacion y très para la posicion del robot). Consecuentemente, la ma- 
triz 2, es de dimensiones (2n + 3) por (2 n + 3). Posee la siguiente estmctura: 



(25.2) 


Aqui es la covarianza de la pose del robot, la cual también la encontramos en el con¬ 
texte de la localizacion. 2 XM es una matriz de tamano 3 X 2 n que expresa la correlaciôn 
entre caracteristicas del mapa y las coordenadas del robot. Para terminar, 2 MM es la ma¬ 
triz de tamano 2 n X 2/7 que especifica la covarianza caracteristica en el mapa, incluyendo 
todos los pares de correlaciones. La memoria requerida para los algoritmos EKF es cua- 
drâtica en /?, el nümero de caracteristicas del mapa y el tiempo de actualizacion es tam¬ 
bién cuadrâtico respecte a n. 

Antes de introducirnos en detalles matemâticos, vamos a estudiar la soluciôn del al- 
goritmo EKF grâficamente. La Figura 25.11 muestra un robot en un entorno con ocho 
marcadores, ordenados en dos filas de cuatro marcadores cada uno. Inicialmente, el ro¬ 
bot no sabe donde estân localizados. Supondremos que cada marcador sera de un color 
distinto, y el robot sera capaz de detectar cual es cual. El robot empieza en una locali¬ 
zacion bien definida hacia la derecha, pero gradualmente pierde certeza de donde esta. 
Esto se indica por las elipses de crror de la Figura 25.1 l(a), las cuales aumentan cuan- 
do el robot se mueve hacia delante. Mientras se mueve el robot, détecta el rango y la dis¬ 
tancia de los marcadores cercanos, y esas observaciones hacen que el robot estime la 
posicion de los mismos. Naturalmente, la incertidumbre de dicha estimaciôn esta unida 
a la incertidumbre de localizacion del robot. La Figura 25.11 (b) y (c) ilustra la creencia 
del robot mientras se mueve cada vez mas lejos en su entorno. 

Un detalle importante de esas estimaciones (el cual no es obvio a partir de nuestra 
representaciôn grâfica) es el hecho de que se mantiene una unira Gaussiana para todas 
las estimaciones. Las elipses de error en la Figura 25.11 son proyecciones de esa Gaus¬ 
siana en subespacios del robot y las coordenadas de los marcadores. Esta Gaussiana mul- 
tivariada mantiene posteriormente correlaciones entre todas las estimaciones. Esta 
observaciôn es importante para entender qué ocurre en la Figura 25.1 l(d). Aqui el ro¬ 
bot observa un marcador previamente detectado. Como resultado, su incertidumbre dis- 
minuye drâsticamente al igual que la incertidumbre del conjunto de marcadores. Esto 
es una consecuencia del hecho de que las estimaciones del robot y los marcadores es¬ 
tân intimamente correlacionadas con la Gaussiana posterior. Encontrar conocimiento so¬ 
bre una variable (aqui la pose del robot) automâticamente reduce la incertidumbre en todas 
las otras. 

El algoritmo EKF para generaciôn de mapas se asemeja al algoritmo EKF de loca¬ 
lizacion de la secciôn previa. La diferencia principal estriba en las variables de los mar¬ 
cadores anadidas a posteriori. El modelo de movimiento para los marcadores es trivial: 
no se mueven. La funciôn/, por lo tanto, es la funciôn identidad para esas variables. La 
funciôn de medida es esencial al igual que en el caso anterior. La ünica diferencia es que 
la funciôn Jacobiana H t en la ecuaciôn de actualizacion de EKF se obtiene no solo con 
respecto a la posicion del robot sino también respecto a la localizacion de los marcado- 
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Figura 25.11 EKF aplicado al problema de generacion de mapas robôticos. El camino del robot 
se muestra en li'nea discontinua y su estimaciôn de posiciôn en elipses sombreadas. Ocho marca- 
dores distinguibles de posiciôn desconocida se muestran como puntos pequenos, y sus estimado- 
res de localizaciôn se muestran como elipses blancas. En (a)-(c) la incertidumbre del robot se va 
incrementando asf como la incertidumbre de encontrarse un marcador. En (d) el robot détecta el 
primer marcador de nuevo y la incertidumbre de todos los marcadores disminuye gracias a que las 
estimaciones estân correlacionadas. 


res que son observados en el tiempo t. Las ecuaciones EKF résultantes son incluso mas 
horrorosas que las indicadas anteriormente por lo cual se omitirân aqui. 

No obstante, hay otras dificultades que hemos ignorado: el hecho de que el tamano 
del mapa M sea desconocido. Por lo tanto el numéro de elementos en la estimaciôn fi¬ 
nal /ji t y son desconocidos. Se tiene que determinar dinâmicamente si el robot descu- 
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bre nuevos marcadores. La soluciôn a este problema es directa; si el robot descubre un 
nuevo marcador, anade un nuevo elemento a la informaciôn a posteriori. Inicializando 
la varianza de este nuevo elemento a un valor muy elevado, el resultado a posterior es 
el mismo que si el robot hubiera conocido la existencia del marcador con antelaciôn. 


Otros tipos de percepciôn 

No toda la percepciôn robôtica versa sobre la localizaciôn y la generaciôn de mapas. Los 
robots también reciben la temperatura, olores, senales acüsticas, etc. Muchas de estas 
cantidades se pueden estimar probabilisticamente, como la localizaciôn y la generaciôn 
de mapas. Todo lo que se necesita para dichos estimadores son las distribuciones de pro- 
babilidad condicionada que describan la relaciôn entre las medidas y los estados de las 
variables. 

No obstante, no todos los sistemas de percepciôn robôtica se basan en representa- 
ciones probabilisticas. En efecto, mientras que el estado interno de todos nuestros ejem- 
plos tienen una interpretaciôn fisica clara, esto no tiene por qué ser el caso. Por ejemplo, 
imagine un robot con piernas que intenta levantar una pierna por encima de un obstâculo. 
Suponga que el robot usa una régla por la cual inicialmente mueve la piema a una altu- 
ra baja y luego la sube cada vez mas alto si la altura anterior résulta en una colisiôn con 
este obstâculo. < Diriamos que la altura de la pierna es una representaciôn de alguna can- 
tidad fisica en el mundo? Puede ser, pero se relaciona con la altura y lo escarpado del 
obstâculo. No obstante podemos pensar en la altura de la pierna como una variable au- 
xiliar del controlador del robot, desprovisto de significado fisico directo. Dicha repre¬ 
sentaciôn es comün en robôtica y para algunos problemas funciona correctamente. 

La robôtica claramente tiende a representaciones con semânticas bien definidas. Las 
técnicas probabilisticas, en muchos casos, superan a otras aproximaciones de problemas 
perceptuales como localizaciôn y generaciôn de mapas. No obstante, las técnicas esta- 
disticas algunas veces son demasiado incômodas y soluciones mâs sencillas pueden ser 
efectivas en la prâctica. El mejor profesor para decidir qué aproximaciôn tomar, es la pro- 
pia experiencia trabajando con robots reales. 


25.4 Planear el movimiento 


MOVIMIENTO PUNTO 
A PUNTO 


MOVIMIENTO 

OBEDIENTE 


En robôtica, las decisiones ültimamente incluyen el movimiento de efectores. El movi¬ 
miento punto a punto consiste en situar al robot o a sus efectores en una posiciôn de- 
terminada. Un reto aün mayor es el problema del movimiento obediente, en el cual un 
robot se desplaza mientras estâ en contacta fisico con un obstâculo. Un ejemplo de mo¬ 
vimiento obediente es un robot que manipula un destomillador con una bombilla o un 
robot que pone una caja encima de una mesa. 

Empezaremos encontrando una buena representaciôn en la cual los problemas de pla- 
nificaciôn puedan ser descritos y solucionados. Résulta que el espacio de configuraciôn 
(el espacio de los estados del robot definido por la localizaciôn, orientaciôn y ângulos 
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PLANIFICACIÔN DE 
TRAYECTORIAS 


de las articulaciones) es un lugar mejor para trabajar que el espacio original en très di- 
mensiones. El problema de planifîcaciôn de trayectorias consiste en encontrar un ca- 
mino de una configuraciôn a otra configuraciôn del espacio. Hemos encontrado varias 
versiones del problema de planificacion en este libro; en robôtica, la caracteristica prin¬ 
cipal de la planificacion es que requiere espacios continuos. La literatura en planifica- 
ciôn distingue un conjunto de técnicas diferentes especificamente creadas para encontrar 
caminos en un espacio continuo de dimension alta. Las aproximaciones mas comunes 
se conocen como descomposiciôn en celdas y esqueletizaciôn. Cada una reduce el pro¬ 
blema continuo de planificacion en la büsqueda sobre un grafo discreto mediante la iden¬ 
tification de algunos estados canônicos y caminos entre el espacio libre. En esta secciôn 
se asume que el movimiento es determimstico y la localizacion del robot es exacta. Las 
secciones siguientes relajarân esas condiciones. 


Espacio de configuraciôn 


ÂREA DE TRABAJO 


RESTRICCIONES DE 
UNION 


ESPACIO DE 
CONFIGURACION 


El primer paso hacia la soluciôn del problema es encontrar una representaciôn apropia- 
da para el problema. Empezaremos con una simple representaciôn para un problema sen- 
cillo. Considéré el brazo de robot mostrado en la Figura 25.12(a). Tiene dos articulaciones 
que se mueven independientemente. Moviendo las articulaciones altéra las coordenadas 
(x, y) del codo y de la pinza. (El brazo no puede moverse en la direcciôn de z.) Esto su- 
giere que la configuraciôn puede ser descrita por una coordinaciôn cuatro-dimensional: 
(x e , y e ) para la localizacion del codo relativa al entorno y (x g , y ) para la localizacion de 
la pinza. Obviamente, estas cuatro coordenadas caracterizan el estado del robot. Elias 
constituyen lo que se conoce como representaciôn del area de trabajo, en la que las coor¬ 
denadas del robot se especifican con el mismo sistema de coordenadas que los objetos 
que busca para manipular (o evitar). La representaciôn del area de trabajo esta bien adap- 
tada para la comprobaciôn de colisiones, especialmente si el robot y todos los objetos 
se pueden representar por modelos poligonales simples. 

El problema con la representaciôn del area de trabajo es que no todas las coorde¬ 
nadas de dicha area son realmente alcanzables, incluso con la ausencia de obstâculos. 
Eso es asf debido a las restricciones de union en el espacio para alcanzar las coorde¬ 
nadas del area de trabajo. Por ejemplo, la posiciôn del codo (x e , y e ) y de la pinza (x g , 
y ) distan siempre una distancia fija, porque estân unidas por un brazo rigido. Un pla- 
nificador de movimiento de un robot definido sobre un area de trabajo con coordena¬ 
das se enfrenta al problema de generar soluciones que soporten dichas limitaciones. Esto 
es particularmente dificil porque el espacio de estados es continuo y las limitaciones 
no son lineales. 

Résulta mas fâcil planificar con una representaciôn del espacio de configuraciôn. 
En vez de representar el estado del robot por las coordenadas cartesianas de sus ele- 
mentos, representamos su estado por la configuraciôn de sus articulaciones. Nuestro ro¬ 
bot de ejemplo tiene dos articulaciones. Por lo tanto, podemos representar su estado con 
dos ângulos a s y a e para la articulaciôn del hombro y del codo respectivamente. En 
ausencia de obstâculos, un robot puede situarse en cualquier posiciôn del area de 
trabajo. En particular, cuando se planifica un determinado camino se puede simplemente 
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CINEMÂTICA INVERSA 


ESPACIO LIBRE 

ESPACIO OCUPADO 


conectar la configuraciôn actual y la de la meta por una linea recta. En el siguiente ca- 
mino, el robot deberfa cambiar sus articulaciones a velocidad constante, hasta que se 
alcance la meta. 

Desafortunadamente, el espacio de configuraciôn tiene sus problemas. La tarea de 
un robot normalmente se expresa mediante coordenadas del area del trabajo, no en co- 
ordenadas del espacio de configuraciôn. Por ejemplo podremos querer que un robot mue- 
va su efector final a una cierta coordenada del area de trabajo, posiblemente con una 
especificaciôn de su orientaciôn. Esto lleva a la pregunta de cômo convertir las coorde¬ 
nadas del area de trabajo en las del espacio de trabajo. En general la inversa de este pro- 
blema, transformar configuraciones del espacio de coordenadas en coordenadas del area 
de trabajo es simple: incluye una sérié de transformaciones obvias del espacio de coor¬ 
denadas. Estas transformaciones son lineales para las articulaciones prismâticas y tri- 
gonométricas para articulaciones de revoluciôn. Esta cadena de transformaciones de 
coordenadas es conocida como cinemâtica, un término que encontramos en la discu- 
siôn sobre los robots môviles. 

El problema inverso de calcular la configuraciôn del robot cuya localizaciôn de los 
efectores se especifica en coordenadas del area de trabajo es conocido como cinemâti- 
ca inversa. Calcular la cinemâtica inversa es normalmente difîcil sobre todo para robots 
con muchos grados de libertad. En particular la soluciôn es pocas veces ünica. Por 
ejemplo nuestro brazo de robot tiene dos configuraciones distintas con las cuales las pin- 
zas llegan a las mismas coordenadas del area de trabajo como se muestra en la figura. 

En general, este brazo de robot de dos articulaciones esta entre cero y dos solucio- 
nes de cinemâtica inversa para cada conjunto de coordenadas del ârea de trabajo. La ma- 
yoria de los robots industriales tienen infinitas soluciones. Para ver cômo puede ser esto 
posible, simplemente imagine que anadimos una tercera articulaciôn de revoluciôn a nues¬ 
tro robot de ejemplo, una cuyo eje rotacional sea paralelo a una de las articulaciones ya 
existentes. En dicho caso podemos alcanzar la localizaciôn (pero no la orientaciôn) de 
la pinza fija y rotar sus articulaciones internas, para la mayoria de las configuraciones 
del robot. Con unas pocas articulaciones mâs (/ cuântas?) podemos obtener el mismo efec- 
to mientras se mantiene la orientaciôn constante. Hemos visto ya un ejemplo de esto en 
el «experimento» de colocar su mano en el escritorio y mover su codo. La restricciôn 
cinemâtica de la posiciôn de la mano es insuficiente para determinar la configuraciôn 
del codo. En otras palabras, la cinemâtica inversa del ensamblaje hombro-brazo posee 
un nümero infinito de soluciones. 

El segundo problema con las representaciones del espacio de configuraciôn se en- 
cuentra en los obstâculos que pueden existir en el ârea de trabajo del robot. Nuestro ejem¬ 
plo en la Figura 25.12(a) muestra varios de estos obstâculos, incluyendo un obstâculo 
colgante que se introduce en el interior del ârea de trabajo del robot. En el ârea de tra¬ 
bajo, estos obstâculos tienen formas geométricas simples. Pero, / 1 |ué aspecto tienen en 
el espacio de configuraciôn? 

La Figura 25.12(b) muestra el espacio de configuraciôn para nuestro robot de ejem¬ 
plo, bajo la configuraciôn especifica de obstâculos mostrada en la Figura 25.12(a). El 
espacio de configuraciôn puede ser descompuesto en dos subespacios: el espacio de to- 
das las configuraciones que el robot puede alcanzar, comünmente llamado espacio li¬ 
bre, y el espacio de las configuraciones inalcanzables, llamado espacio ocupado. El ârea 
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Figura 25.12 (a) Representaciôn del area de trabajo de un brazo robôtico con dos grados de li- 

bertad. El area de trabajo es una caja con un obstâculo piano colgando del techo. (b) El espacio de 
configuracion del mismo robot. Solo las regiones blancas en el espacio son configuraciones libres 
de colisiôn. El punto en este diagrama se corresponde con la configuracion del robot mostrada a la 
izquierda. 


blanca en la Figura 25.12(b) se corresponde al espacio libre. Todas las demâs regiones 
se corresponden con espacio ocupado. El sombreado diferente del espacio ocupado se 
corresponde con los distintos objetos en el area de trabajo del robot; la région negra que 
rodea el espacio libre por entero son las configuraciones en las que el robot colisiona 
consigo mismo. Es fâcil ver que valores extremos para los ângulos del hombro o el codo 
pueden causar un choque de este tipo. Las dos regiones ovales a ambos lados del robot 
corresponden a la mesa donde el robot esta montado. Similarmente, la tercera région 
oval corresponde a la pared izquierda. Por ültimo, el objeto mas interesante en el espa¬ 
cio de configuracion es un simple obstâculo vertical entorpeciendo el area de trabajo 
del robot. Este objeto en el espacio de configuracion tiene una forma extrana: es alta- 
mente no lineal e incluso en algunos lugares concava. Con una pequena cantidad de ima- 
ginaciôn el lector reconocerâ la forma de la pinza en el extremo superior izquierdo. 
Recomendamos al lector parar por un momento y estudiar este importante diagrama. ;La 
forma de este obstâculo no es del todo obvia! El punto en el interior de la Figura 
25.12(b) marca la configuracion del robot, como muestra la Figura 25.12(a). La Figu¬ 
ra 25.13 représenta très configuraciones adicionales, tanto en el espacio de configura¬ 
cion como en el ârea de trabajo. En la configuracion «conf-1», la pinza circunda el 
obstâculo vertical. 

En general, incluso si el ârea de trabajo del robot se représenta por poligonos pia¬ 
nos, la forma del espacio libre puede ser muy complicada. En la prâctica, en consecuencia, 
se suele investigar un espacio de configuracion en lugar de construirlo explicitamente. 
Un planificador puede generar una configuracion y entonces comprobar si estâ en es- 
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DESCOMPOSICIÔN 

CELDAS 



Figura 25.13 Très configuraciones del robot, mostradas en el area de trabajo y el espacio de con- 
figuracion. 


pacio libre aplicando la cinemâtica del robot y entonces comprobar si se producen co- 
lisiones en las coordenadas del area de trabajo. 


Métodos de descomposiciôn en celdas 

en Nuestra primera aproximaciôn a la planificacion de rutas utiliza descomposiciôn en cel¬ 
das, esto es, descompone el espacio libre en un nümero finito de regiones continuas, 11a- 
madas celdas. Estas regiones tienen la importante propiedad de que el problema de 
planificacion de mtas en una région simple puede ser resuelta de forma simple (por ejem- 
plo, moviéndose en linea recta). El problema de planificacion de rutas se transforma en¬ 
tonces en un problema de büsqueda en un grafo discreto, muy parecido a los problemas 
de büsqueda mostrados en el Capitulo 3. 

La descomposiciôn en celdas mas simple consiste en una rejilla regular. La Figura 
25.14(a) muestra una descomposiciôn en una rejilla cuadriculada del espacio y una ruta 
soluciôn que es ôptima para este tamano de rejilla. Hemos utilizado también un som- 
breado en escala de grises para indicar el valor de cada celda de la rejilla de espacio li¬ 
bre, por ejemplo, el coste del camino mas corto desde la celda hasta el objetivo. (Estos 
valores pueden ser calculados de una forma determinista mediante el algoritmo de Va- 
lue-Itération dado en la Figura 17.4.) La Figura 25.14(b) muestra la trayectoria co- 
rrespondiente en el area de trabajo del brazo. 

Esta descomposiciôn tiene la ventaja de que es extremadamente fâcil de implemen- 
tar, pero sufre dos limitaciones. Primero, solo podemos trabajar con espacios de confi- 
guraciôn de poca dimensionalidad, ya que el nümero de celdas de la rejilla crece 
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Figura 25.14 (a) Funciôn de valor y ruta encontrada para una aproximacion de rejilla discreta de 

celdas del espacio de configuracion. (b) La misma ruta visualizada en coordenadas del area de tra- 
bajo. Observe como el robot dobla su codo para evitar la colisiôn con el obstâculo vertical. 


DESCOMPOSICIÔN 
EXACTA EN CELDAS 


exponencialmente con d, el nümero de dimensiones. Segundo, existe el problema de qué 
hacer con las células «mixtas», esto es, que no se encuentran por entero ni en espacio 
libre ni en espacio ocupado. Una soluciôn que incluya una celda de este tipo puede que 
no sea una soluciôn real, porque puede no haber forma de cruzar la celda en la direc- 
ciôn deseada mediante una linea recta. Esto puede hacer el planificador de rutas imper- 
fecto. Por otra parte, si hacemos que solo las celdas completamente libres puedan ser 
usadas, el planificador séria incompleto, ya que se puede dar el caso de que las ünicas 
rutas al objetivo deban ir a través de celdas mixtas, especialmente si el tamano de la cel¬ 
da es comparable a los pasillos o los espacios libres en el espacio. 

Hay dos formas de modificar el método de descomposiciôn en celdas para evitar estos 
problemas. Lo primero es permitir una subdivision adicional de las celdas mixtas 
(quizâs usando celdas con un tamano que sea la mitad del original). Esto puede repetir- 
se recursivamente hasta que se encuentre una ruta que atraviese ünicamente celdas li¬ 
bres. (Por supuesto, el método solo funciona si hay una forma de saber si una celda es 
una celda mixta, que es fâcil solo si los limites del espacio de configuracion tienen des- 
cripciones matemâticas relativamente simples.) Este método es compléta a condiciôn de 
que haya un limite en el pasillo mas pequeno a través del cual la soluciôn deba pasar. A 
pesar de que se centra la mayoria del esfuerzo computacional en las areas mas dificiles 
dentro del espacio de configuracion, sigue fallando el escalado en problemas de alta di- 
mensionalidad porque cada division recursiva de una celda créa 2 d celdas mas peque- 
nas. Una segunda forma de obtener un algoritmo completo es insistir en una 
descomposiciôn exacta en celdas del espacio libre. Este método debe permitir que las 
celdas tengan formas irregulares de tal modo que estén en contacto con los limites del 

































ROBÔTICA 1045 


espacio libre, pero las formas deben ser todavfa «simples» en el sentido de que deberia 
ser fâcil calcular una travesfa para cada celda libre. Esta técnica requiere algunas ideas 
geométricas algo avanzadas, asi que no entraremos en mas detalle. 

Examinando la solucion mostrada en la Figura 25.14(a), podemos ver dificultades 
adicionales que tienen que ser resueltas. Primero, se puede observai - que la ruta contie- 
ne esquinas arbitrariamente agudas; un robot moviéndose a una velocidad finita no po- 
drfa ejecutar una ruta de este tipo. Por otra parte, la ruta es muy cercana al obstâculo. 
Cualquiera que haya conducido un coche sabe que una plaza de aparcamiento con un 
milimetro de espacio en cada lado no es realmente una plaza de aparcamiento; por la mis- 
ma razôn, prefeririamos rutas solucion que fueran robustas a pequenos errores de mo- 
vimiento. 

Quemamos maximizar la distancia a los obstâculos mientras se minimiza la longi- 
campo de potencial tud de la ruta. Esto puede ser conseguido introduciendo un campo de potencial. Un cam- 
po de potencial es una funciôn definida sobre el espacio de estados, cuyo valor crece con 
la distancia al obstâculo mas cercano. La Figura 25.15(a) muestra un campo de poten¬ 
cial de este tipo (cuanto mas oscuro sea el estado de configuraciôn, mas cercano estarâ 
a un obstâculo). Cuando se usa en la planificacion de mtas, este campo de potencial se 
transforma en un término de coste adicional en la optimizaciôn. Esto introduce un cam- 
bio interesante. Por una parte, el robot busca minimizar la longitud del camino hasta el 
objetivo. Por otra parte, trata de mantenerse alejado de los obstâculos mediante la mi- 
nimizaciôn de la funciôn de potencial. Con el peso apropiado entre los dos objetivos, la 
ruta résultante puede parecerse a la mostrada en la Figura 25.15(b). Esta figura también 
muestra la funciôn derivada de la funciôn de coste combinada, calculada de nuevo me¬ 
diante iteraciôn de valores. Claramente, la ruta résultante es mâs larga, pero también es 
mâs segura. 



(a) (b) 


Figura 25.15 (a) Un campo de potencial repulsivo empuja al robot lejos de los obstâculos. (b) 

La ruta encontrada mediante la minimizaciân simultânea de la longitud de la ruta y el potencial. 
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Métodos de esqueletizaciôn 

La segunda principal familia de algoritmos de planificacion de rutas esta basada en la 
idea de la esqueletizaciôn. Estos algoritmos reducen el espacio libre del robot a una re- 
presentaciôn unidimensional, para la cual el problema de planificacion es mas fâcil. Esta 
representaciôn de menor dimensionalidad es llamada esqueleto del espacio de confi¬ 
guraciôn. 

La Figura 25.16 muestra una esqueletizaciôn de ejemplo: es un diagrama de Vo- 
ronoi del espacio libre (el conjunto de todos los puntos que son équidistantes de dos o 
mas obstâculos). Para hacer planificacion de rutas con un diagrama de Voronoi, el ro¬ 
bot primero cambia su configuraciôn présente a un punto en el grafo de Voronoi. Es fâ¬ 
cil demostrar que esto siempre puede ser conseguido mediante un movimiento en linea 
recta en el espacio de configuraciôn. Después, el robot sigue el diagrama de Voronoi has- 
ta que alcanza el punto mas cercano a la configuraciôn objetivo. Finalmente, el robot déjà 
el diagrama de Voronoi y se mueve al objetivo. Otra vez, el paso final implica movimiento 
en linea recta en el espacio de configuraciôn. 

De esta forma, el problema original de planificacion de rutas se reduce a encontrar 
una ruta en el diagrama de Voronoi, que es generalmente unidimensional (excepto en 
casos no genéricos) y tiene varios puntos finitos donde très o mas curvas unidimensio- 
nales intersectan. De esta manera, encontrar el camino mas corto en el diagrama de Vo¬ 
ronoi es un problema de büsqueda en un grafo discreto del tipo de los mostrados en los 
Capitulos 3 y 4. Segün el diagrama de Voronoi puede no darnos el camino mas corto, pero 
las rutas résultantes tienden a maximizar el espacio libre. La desventaja principal de las 
técnicas basadas en diagramas de Voronoi es que son dificiles de aplicar a espacios de 



Figura 25.16 (a) El diagrama de Voronoi es un conjunto de puntos équidistantes a dos o mas obs¬ 

tâculos en el espacio de configuraciôn. (b) Un itinerario probabilfstico, compuesto de 400 puntos 
elegidos al azar en espacio libre. 
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configuraciôn de dimensiones mas altas, y que tienden a inducir desvios innecesariamente 
grandes cuando el espacio de configuraciôn es muy abierto. Ademâs, computar el dia- 
grama de Voronoi puede ser dificil, especificamente en el espacio de configuraciôn, don- 
de la forma de los obstâculos puede ser compleja. 

Una alternativa a los diagramas de Voronoi es el itinerario probabilistico, una 
itinerario aproximaciôn basada en esqueletizaciôn que ofrece mas rutas posibles, y ademâs fun- 

probabiustico ciona mejor con los espacios abiertos. La Figura 25.16(b) muestra un ejemplo de itine¬ 

rario probabilistico. El grafo es creado generando aleatoriamente un gran nümero de 
configuraciones, y descartando aquellas que no caigan en espacio libre. Entonces, uni- 
mos un par de nodos cualquiera por un arco si es «fâcil» alcanzar un nodo desde el otro, 
por ejemplo, por una linea recta en espacio libre. El resultado de todo esto es un grafo 
aleatorio en el espacio libre del robot. Si anadimos las configuraciones de inicio y ob- 
jetivo del robot a este grafo, la planificaciôn de mta se traduce en la büsqueda en un gra¬ 
fo discreto. Teôricamente, esta aproximaciôn es incompleta, ya que la mala elecciôn de 
puntos aleatorios puede dejarnos sin ninguna ruta desde el inicio hasta el objetivo. Es 
posible limitar la probabilidad de fallo a partir del nümero de puntos generado y ciertas 
propiedades geométricas del espacio de configuraciôn. También es posible dirigir la ge- 
neraciôn de puntos hacia areas donde una büsqueda parcial sugiera que una buena ruta 
puede ser encontrada, trabajando bidireccionalmente desde las posiciones de inicio y fi¬ 
nal. Con estas mejoras, la planificaciôn por itinerario probabilistico tiende a adaptarse 
mejor a espacios de configuraciôn altamente dimensionados que muchas de las técni- 
cas alternativas de planificaciôn de rutas. 


25.5 Planifïcar movimientos inciertos 


Ninguno de los algoritmos de planificaciôn de movimientos expuestos hasta ahora tie- 
ne en cuenta una de las caracteristicas clave de los problemas en robôtica: la incerti- 
dumbre. En robôtica, la incertidumbre proviene de la observabilidad parcial del entorno 
y de los efectos estocâsticos (o no modelados) de las acciones del robot. Los errores pue- 
den también provenir del uso de algoritmos de aproximaciôn como el filtrado de parti- 
culas, que no provee al robot con un estado de creencia exacto incluso si la naturaleza 
estocâstica del entomo se modela perfectamente. 

La mayoria de los robots de hoy en dia usan algoritmos deterministicos para la toma 
de decisiones, como los algoritmos de planificaciôn de rutas explicados hasta ahora. Para 
ello, es una prâctica comün extraer el estado mas probable de la distribuciôn de esta- 
dos producida por el algoritmo de localizaciôn. La ventaja de esta aproximaciôn es pu- 
ramente computacional. Planifïcar rutas mediante espacios de configuraciôn es todavfa 
un problema desafiante; podria ser peor si tuviéramos que trabajar con una distribuciôn 
de probabilidad plena sobre los estados. Ignorar la incertidumbre de esta manera fun- 
ciona correctamente cuando la incertidumbre es pequena. 

Desafortunadamente, ignorar la incertidumbre no siempre funciona. En algunos 
problemas la incertidumbre del robot es simplemente demasiado grande. Por ejemplo, 
/ como podriamos usar un planificador de rutas determinista para contrôlai - un robot mô- 
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vil que no tiene idea de dônde esta? En general, si el estado real del robot no es uno iden- 
tificado por la régla de mâxima probabilidad, el control résultante sera subôptimo. De- 
pendiendo de la magnitud del error esto puede llevar a toda una sérié de efectos 
indeseables, como colisiones con obstâculos. 

El campo de la robotica ha adoptado una gama de técnicas para acomodarse a la in- 
certidumbre. Algunas se derivan de los algoritmos dados en el Capitulo 17 para la toma 
de decisiones bajo incertidumbre. Si el robot solo se enfrenta a la incertidumbre en su 
estado de transiciôn, pero este estado es plenamente observable, el problema es mode- 
lado mejor como un proceso de Decision de Markov, o MDP. La soluciôn para un MDP 
es una politica ôptima, que le dice al robot qué hacer en cada posible estado. De esta 
forma, puede manejar todos los tipos de errores de movimiento, mientras que una solu¬ 
ciôn ünica obtenida mediante un planificador deterministico séria mucho menos robus- 
ta. En robotica, las politicas son normalmente llamadas funciones de navegaciôn. La 
funciôn mostrada en la Figura 25.14(a) puede ser convertida en una de estas funciones 
de navegaciôn simplemente siguiendo el gradiente. 

Como en el Capitulo 17, la observabilidad parcial hace el problema mucho mas com- 
plicado. El problema de control del robot résultante es un MDP observable parcial- 
mente, o POMDP. En estas situaciones, el robot normalmente mantiene un estado de 
creencia interno, como los discutidos en el Apartado 25.3. La soluciôn a un POMDP es 
una politica defmida sobre el estado de creencia del robot. Dicho de otra forma, la en- 
trada a la politica es una distribuciôn de probabilidad entera. Esto permite al robot ba- 
sar sus decisiones no solo en lo que conoce, sino también en lo que no. Por ejemplo, si 
no se tiene certeza sobre un estado critico variable, se puede racionalmente invocar una 
acciôn de recogida de informaciôn. Esto es imposible en el marco del MDP, ya que 
los MDPs asumen observabilidad plena. Desafortunadamente, las técnicas que resuel- 
ven POMDPs de forma exacta son inaceptables para la robotica, no hay técnicas cono- 
cidas para espacios continuos. La discretizaciôn normalmente produce POMDPs que son 
demasiado grandes para ser manejados por técnicas conocidas. Todo lo que podemos ha¬ 
cer es intentar mantener la menor incertidumbre posible; por ejemplo, la heuristica de 
navegaciôn costera requiere que el robot permanezca cerca de marcadores conocidos 
para decrementar su incertidumbre de posicionamiento. Esto, ademâs, décrémenta gra- 
dualmente la incertidumbre de la obtenciôn de nuevos marcadores que estân cercanos, 
lo que permite al robot explorar mas territorio. 


Métodos robustos 

La incertidumbre puede ser también manejada utilizando los asi llamados métodos ro¬ 
bustos en lugar de los métodos probabilisticos. Un método robusto es aquel que asume 
una cantidad limitada de incertidumbre en cada aspecto del problema, pero que no asig- 
na probabilidades a los valores en el interior del intervalo permitido. Una soluciôn ro- 
busta es una que funciona sin importar cuâles son los valores actuales, siempre que se 
encuentren dentro del intervalo asumido. Una forma extrema de método robusto es la 
aproximaciôn de planification conformista dada en el Capitulo 12, produce planes que 
funcionan sin ningün tipo de informaciôn sobre el estado. 
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Aquf vemos un método robusto que es utilizado para la planificaciôn de movimiento 
certero {fine-motion planning o FMP) en tareas de ensamblaje de robots. La planifica¬ 
ciôn de movimiento certero implica mover un brazo robôtico en una gran proximidad a 
un objeto estâtico del entorno. La principal dificultad con la planificaciôn de movimiento 
certero es que los movimientos requeridos y las caracterfsticas relevantes del entorno son 
muy pequenos. A estas escalas tan pequenas, el robot es incapaz de medir o controlar 
su posiciôn de forma précisa y puede también no tener certeza sobre la forma del en¬ 
torno; asumiremos que estas incertidumbres estân todas limitadas. Las soluciones a los 
problemas de FMP serân tipicamente planes condicionales o politicas que hagan uso de 
informaciôn de los sensores durante la ejecuciôn y garantizan su buen funcionamiento 
en todas las situaciones consistentes con los limites asumidos de incertidumbre. 

Un plan de movimiento certero consiste en una sérié de movimientos cautelosos. 
Cada movimiento cauteloso consiste en (1) un comando de movimiento y (2) una con- 
diciôn de terminaciôn, que es un predicado sobre el valor de los sensores del robot, y 
retorna verdadero para indicar el final del movimiento cauteloso. Los comandos de mo¬ 
vimiento son tipicamente movimientos amoldables que permiten al robot deslizarse si 
el comando de movimiento pudiera causar colisiôn con un obstâculo. Como un ejem- 
plo, la Figura 25.17 muestra una configuraciôn espacial en dos dimensiones con un es- 
trecho agujero vertical. Podria ser el espacio de configuraciôn para la inserciôn de una 
clavija rectangular en un agujero que es ligeramente mas grande. Los comandos de mo¬ 
vimiento son velocidades constantes. Las condiciones de terminaciôn son el contacta con 
la superficie. Para modelar la incertidumbre en el control, asumimos que en lugar de mo¬ 
ver en la direcciôn indicada, el movimiento real del robot permanece en el cono Cv. La 
figura muestra qué pasaria si ordenâramos una velocidad hacia abajo desde la région de 
inicio s. Debido a la incertidumbre en la velocidad, el robot podria moverse a cualquier 
lugar dentro de la région cônica, posiblemente dirigiéndose hacia el agujero, pero mas 
probablemente situândose en algün lado del mismo. Debido a que el robot no sabria en¬ 
fonces en qué lado del agujero se encuentra, no sabria en qué direcciôn moverse. 



Figura 25.17 Un entorno en dos dimensiones, cono de incertidumbre de velocidad, y région de 
posibles movimientos del robot. La velocidad buscada es v, pero con incertidumbre la velocidad 
real podria estar en cualquier lugar de Cv, resultando en una configuraciôn final en cualquier lugar 
de la région de movimiento, lo que signiftca que no podriamos saber si hemos acertado en el agu¬ 
jero o no. 
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Una estrategia mas sensata se muestra en las Figuras 25.18 y 25.19. En la Figura 25.18, 
el robot deliberadamente se mueve hacia uno de los lados del agujero. La orden de mo- 
vimiento se muestra en la figura, y la condicion de terminaciôn es el contacto con al- 
guna superficie. En la Figura 25.19, se da una orden de movimiento que causa que el 
robot se deslice a lo largo de la superficie y hacia el agujero. Esto asume que se utilice 
una orden de movimiento correcta. Debido a que todas las posibles velocidades en la ré¬ 
gion de movimiento son hacia la derecha, el robot se desplazarâ hacia la derecha siem- 
pre que se encuentre en contacto con una superficie horizontal. Se deslizarâ hacia el limite 
vertical inferior derecho del agujero cuando lo toque, porque todas las posibles veloci¬ 
dades relativas a una superficie vertical van hacia abajo. Se seguirâ moviendo hasta que 
alcance la parte inferior del agujero, debido a que esa es su condicion de terminaciôn. 
A pesar de la incertidumbre en el control, todas las posibles trayectorias del robot ter- 
minan en contacto con la parte inferior del agujero, a menos que irregularidades en la 
superficie causen que el robot quede atascado en algün lugar. 

Como podrfa imaginarse, el problema de construit• planes de movimiento certero no 
es trivial; de hecho, es mucho mas complicado que la planificaciôn con movimientos exac- 
tos. Podemos o bien elegir un nümero fijo de valores discretos para cada movimiento o 



Figura 25.18 La primera orden de movimiento y la région résultante de posibles movimientos 
del robot. No importa cuâl sea el error, nosotros sabemos que la configuracion final sera a la iz- 
quierda del agujero. 





Figura 25.19 La segunda orden de movimiento y la région de posibles movimientos. Incluso con 
error, a la larga llegaremos al agujero. 
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bien utilizar la geometria del entorno para elegir direcciones que den comportamientos 
cualitativamente diferentes. Un planificador de movimiento certero toma como entrada 
una descripciôn del espacio de configuraciôn, el ângulo del cono de incertidumbre de la 
velocidad, y una especificaciôn de qué estimulos son posibles para la terminaciôn (con¬ 
tacta con la superficie en este caso). Produciria un plan condicional multipaso o una po- 
litica de éxito garantizado, si dicho plan existiera. 

Nuestro ejemplo asume que el planificador tiene un modelo exacto del entorno, pero 
es posible permitir un error acotado en este modelo como se indica a continuaciôn. Si 
el error puede ser descrito en términos de parâmetros, estos paramétras pueden ser ana- 
didos como grados de libertad al espacio de configuraciôn. En el ültimo ejemplo, si la 
profundidad y la anchura del agujero fueran indeterminados, podriamos anadirlos como 
dos grados de libertad en el espacio de configuraciôn. Es imposible mover al robot en 
estas direcciones en el espacio de configuraciôn u obtener su posiciôn directamente. Pero 
estas restricciones pueden ser incorporadas cuando se describa el problema como un pro- 
blema FMP mediante la especificaciôn de las incertidumbres de contrai y sensorizaciôn. 
Esto nos da un problema de planificaciôn cuatridimensional y complejo, pero exacta- 
mente las mismas técnicas de planificaciôn pueden ser aplicadas. Hay que notar que no 
muy diferente que los métodos de decision teorética del Capitulo 17, este tipo de apro- 
ximaciôn robusta résulta en planes disenados para resolver el peor caso, mas que para 
maximizar la calidad esperada de la planificaciôn. Las planificaciones de peor caso son 
ôptimas en el sentido de la decision teorética si el fallo durante la ejecuciôn es mucho 
peor que cualquier otro coste involucrado en la ejecuciôn. 


25.6 Movimiento 


Hasta ahora, hemos hablado de planificar movimientos, pero no acerca de como moverse. 
Nuestros planes (particularmente aquellos producidos por planifie adores de ruta deter- 
mimsticos) asumen que el robot puede simplemente seguir cualquier ruta que el algo- 
ritmo produce. Esto no es cierto en el mundo real. Los robots tienen inercia y no pueden 
ejecutar ratas arbitrarias excepta a una baja velocidad. En la mayoria de los casos, mas 
que especificar posiciones, el robot trata de aplicar fuerzas. Esta secciôn muestra méto¬ 
dos para calcular estas fuerzas. 


Dinâmica y control 


ECUACIONES 

DIFERENCIALES 


El Apartado 25.2 introdujo la nociôn de estado dinâmico, que extiende el estado cine- 
mâtica de un robot mediante el modelado de sus velocidades. Por ejemplo, en adiciôn 
al ângulo de la articulaciôn de un robot, el estado dinâmico ademâs captura la veloci¬ 
dad de cambio del ângulo. El modelo de transiciôn para la representaciôn de un estado 
dinâmico incluye el efecto de las fuerzas en esta velocidad de cambio. Estos modelos 
son tipicamente expresados mediante ecuaciones diferenciales, que son ecuaciones 
que relacionan una cantidad (por ejemplo, un estado cinemâtico) con el cambio de la can- 
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tidad con el tiempo (por ejemplo, velocidad). En principio podnamos haber elegido pla- 
nificar el movimiento del robot usando modelos dinâmicos, en lugar de nuestros mode- 
los cinemâticos. Esta metodologia nos llevaria a una actuaciôn superior del robot, si 
pudiéramos generar los planes. Sin embargo, el estado dinâmico es mas complejo que 
el espacio cinemâtico, y la maldiciôn de la dimensionalidad podrla hacer los problemas 
de planificaciôn de movimiento intratables para todos menos para los robots mas sim¬ 
ples. Por esta razôn, los sistemas robôticos reales normalmente se basan en planifica- 
dores de rutas mas simples. 

Una técnica comün para compensar las limitaciones de las planificaciones cinemâ- 
ticas es usar un mecanismo separado, un controlador, para mantener al robot en mta. 
Los controladores son técnicas para generar contrôles del robot en tiempo real utilizan- 
do retroalimentaciôn del entorno, asi como para conseguir un objetivo de control. Si el 
objetivo es mantener al robot en una mta preplaneada, entonces es comün llamarlo con¬ 
trolador de referencia y a la ruta ruta de referencia. Los controladores que optimizan 
una funciôn global de coste son conocidos como controladores ôptimos. Las politicas 
ôptimas para los MDPs son, en efecto, los controladores ôptimos. 

Superficialmente, el problema de mantener el robot en una mta pre-especificada pa- 
rece ser relativamente directo. En la prâctica, sin embargo, incluso este problema apa- 
rentemente simple tiene sus trampas. La Ligura 25.20(a) ilustra lo que puede ir mal. Lo 
que se muestra es una mta para un robot que intenta seguir una ruta cinemâtica. Cada 
vez que se produce una desviaciôn (ya sea por el ruido o por las restricciones en las fuer- 
zas que el robot puede aplicar) el robot provee una fuerza en sentido contrario cuya mag- 
nitud es proporcional a su desviaciôn. Intuitivamente, esto puede parecer factible, ya que 
las desviaciones podrian ser compensadas por una contra-fuerza para mantener al robot 
en el camino. Sin embargo, como muestra la Ligura 25.20(a), nuestro controlador cau¬ 
sa que el robot vibre mas bien violentamente. La vibraciôn es el resultado de la inercia 
natural del brazo robôtico: una vez devuelto a su posiciôn de referencia el robot puede 
llegar mas alla, lo cual induce un error simétrico de signo opuesto. La Ligura 25.20(a) 
muestra que esta desviaciôn puede continuar a largo de la trayectoria compléta, y que 
el movimiento résultante del robot estarfa lejos de ser el deseable. Claramente hay una 
necesidad de un mejor control. 

Para llegar a obtener un mejor controlador, describamos formalmente el tipo de con¬ 
trolador que produjo la desviaciôn. Los controladores que proveen una fuerza en pro- 
porciôn negativa al error observado son conocidos como controladores P. La letra P viene 
de proporcional, indicando que el control actual es proporcional al error del manipula- 
dor del robot. Mas formalmente, sea y(t) la ruta de referencia, parametrizada por algün 
indice t. El control a t gcncrado por un controlador P tiene la siguiente forma: 

a, = K P (y(t) ~ x) 

Aqui x t es el estado del robot en el instante t. K p es el llamado parâmetro de ganancia 
del controlador que régula cuânto corrige la desviaciôn el controlador entre el estado ac¬ 
tual x t y el deseado y(t). En nuestro ejemplo, K = 1. En un primer momento, podemos 
pensar que elegir un valor menor de K remedia el problema. Desafortunadamente este 
no es el caso. La Ligura 25.20(b) muestra una trayectoria para K = , 1, todavia descri- 
biendo un comportamiento oscilatorio. Valores menores del parâmetro de ganancia pue- 






ROBÔTICA 1053 


ESTABLE 

ESTRICTAMENTE 

ESTABLE 

CONTROLADOR PD 





Figura 25.20 Control de brazo robotica utilizando (a) control proporcional con factor de ganan- 
cia 1,0, (b) control proporcional con control de ganancia 0,1, y (c) control PD con factores de ga- 
nancia 0,3 para el componente proporcional y 0,8 para el diferencial. En todos los casos el robot 
trata de seguir la ruta mostrada en gris. 


den simplificar la oscilaciôn, pero no resolver el problema. De hecho, en ausencia de fric- 
ciôn, el controlador P es esencialmente una ley de resorte; por lo tanto oscilarâ indefi- 
nidamente alrededor de una localizaciôn objetivo fija. 

Tradicionalmente, los problemas de este tipo se engloban dentro del âmbito de la 
teori'a de control, un campo de importancia creciente para los investigadores en IA. Dé- 
cadas de investigaciôn en este campo han llevado a un mayor nümero de controladores 
que son superiores a la simple régla de control dada mas arriba. En particular, un con¬ 
trolador de referencia se dice que es estable si pequenas perturbaciones llevan a un error 
limitado entre el robot y la senal de referencia. Se dice que es estrictamente estable si 
es capaz de retornar a su mta de referencia a pesar de taies perturbaciones. Claramente, 
nuestro controlador P parece ser estable pero no estrictamente estable, ya que no consi- 
gue retornar a su trayectoria de referencia. 

El controlador mas simple que consigue estabilidad estricta en nuestro dominio se 
conoce como controlador PD. La letra ‘P’ sigue viniendo de proporcional, y ‘D’ vie- 
ne de derivativo. Los controladores PD son descritos por la siguiente ecuaciôn: 

<Hy(t) - x ,) 

a, = K p (y(t) - x ,) + K d -- (25.3) 

at 

Como esta ecuaciôn sugiere, los controladores PD extienden los controladores P con una 
componente diferencial, que anade al valor de a t un término que es proporcional a la pri¬ 
mera derivada del error y(t) — x t con respecta al tiempo. / ; Cuâl es el efecto de este tér¬ 
mino? En general, un término de derivada amortigua el sistema que esta siendo 
controlado. Para verlo, consideremos una situaciôn donde el error (y(t) — x t ) cambie râ- 
pidamente con el tiempo, como es el caso de nuestro controlador P indicado arriba. La 
derivada de este error contrarrestarâ entonces el término proporcional, lo que reducirâ 
la respuesta global a la perturbaciôn. Sin embargo, si el mismo error persiste y no cam¬ 
bia, la derivada se eliminarâ y entones el término proporcional dominarâ la elecciôn del 
control. 
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La Figura 25.20(c) muestra el resultado de aplicar este controlador PD a nuestro bra- 
zo robotico, usando como parâmetros de ganancia K p = ,3 y K D = ,8. Claramente la ruta 
résultante es mucho mas suave, y no muestra ninguna oscilacion obvia. Como este 
ejemplo sugiere, un término diferencial puede hacer estable un controlador que de otra 
forma no lo séria. 

En la prâctica, los controladores PD también pueden fallar en determinadas cir- 
cunstancias. En particular, los controladores PD pueden fallar al regular un error proxi- 
mo a cero, aun en ausencia de perturbaciones extemas. Esto no es obvio en nuestro 
ejemplo, pero algunas veces se requiere una retroalimentacion sobreproporcionada para 
disminuir un error hacia cero. La solution a este problema esta en anadir un tercer tér¬ 
mino a la ley de control, basado en una intégral del error a lo largo del tiempo: 

r d(y(t) - x) 

a, = K P (y(t ) - x,) + K, J ( y(t ) - x)dt + K D ^ (25.4) 

Aqui Kj es otro parâmetro de ganancia mas. El término J (y(t) — x,) dt calcula la intégral 
del error con el tiempo. El efecto de este término es que las desviaciones duraderas en¬ 
tre la senal de referencia y el estado actual son corregidas. Si, por ejemplo, x, es menor 
que y(t) durante un largo perfodo de tiempo, esta intégral crecerâ hasta que el control 
résultante a t fuerza este error a reducirse. Los términos intégrales, pues, aseguran que 
un controlador no muestra error sistemâtico, con la desventaja de un aumento en el ries- 
go del comportamiento oscilatorio. Un controlador con los très términos es llamado con- 
controlador pid trolador PID. Los controladores PID son muy usados en la industria, para una gran 
variedad de problemas de control. 


Control del campo de potencial 

Introdujimos los campos de potencial como una funcion de coste adicional en la plani¬ 
fication de movimiento del robot, pero también pueden ser usados para generar movi- 
mientos del robot directamente, en conjunto con la fase de planificacion de movimiento. 
Para conseguirlo, debemos définir una fuerza atractiva que empuje al robot hacia su con- 
figuraciôn objetivo y un campo potencial repulsivo que empuje al robot lejos de los obs- 
tâculos. Este tipo de campo de potencial se muestra en la Figura 25.21. Su ünico mmimo 
global es la configuracion objetivo, y el valor es la suma de la distancia a su configura- 
ciôn objetivo y la proximidad a los obstâculos. Ninguna planificacion esta involucrada 
en la generaciôn del campo de potencial mostrado en la figura. Debido a esto, los cam¬ 
pos de potencial son muy adecuados para control en tiempo real. La Figura 25.21 mues¬ 
tra dos trayectorias de un robot que realiza el ascenso de una elevaciôn en el campo de 
potencial, a partir de dos configuraciones iniciales diferentes. Ademâs, optimizando las 
cantidades de potencial mediante el câlculo del gradiente de potencial para la configu¬ 
racion actual del robot. Estos câlculos normalmente son extremadamente eficientes, es- 
pecialmente cuando se comparan con los algoritmos de planificacion de trayectorias, los 
cuales son exponenciales en la dimensionalidad del espacio de configuracion (los gra- 
dos de libertad). 
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Figura 25.21 Control por campo de potencial. El robot asciende por un campo de potencial com- 
puesto de fuerzas de repulsion obtenidas a partir de los obstâculos, y fuerzas atrayentes que co- 
rresponden a la configuraciôn objetivo. (a) Ruta con éxito. (b) Optimo local. 


El hecho de que la aproximacion del campo de potencial trate de encontrar una ruta 
al objetivo de esta forma tan eficiente, a pesar de largas distancias en el espacio de con¬ 
figuraciôn, hace surgir la pregunta de por qué es necesaria la planificaciôn en robôtica. 
/ Son los campos de potencial suficientes o simplemente hemos sido afortunados en nues- 
tro ejemplo? La respuesta es que ciertamente hemos sido afortunados. Los campos de 
potencial tienen varios minimos locales que pueden atrapar al robot. En este ejemplo, 
el robot se aproxima al obstâculo simplemente rotando su articulaciôn de hombro, has- 
ta que queda atrapado en el lado equivocado del obstâculo. El campo de potencial no es 
lo suficientemente rico para hacer al robot flexionar su codo de tal forma que el brazo 
quepa bajo el obstâculo. En otras palabras, las técnicas de campo de potencial son muy 
buenas para control local del robot pero todavia necesitan planificaciôn global. Otra des- 
ventaja importante de los campos de potencial es que las fuerzas que generan dependen 
solo de la posiciôn del robot y de los obstâculos, no de la velocidad del robot. Por lo tan- 
to, el control por campo de potencial realmente es un método cinemâtico y puede fallar 
si el robot se mueve râpidamente. 


Control reactivo 

Hasta ahora hemos considerado decisiones de control que requieren algün modelo del 
entorno para construir o bien una ruta de referencia o bien un campo de potencial. Hay 
algunas dificultades con esta aproximacion. Primero, los modelos que son lo suficien¬ 
temente precisos son a menudo dificiles de obtener, especialmente en entomos complejos 
o remotos, como la superficie de Marte. Segundo, incluso en los casos en los que poda- 
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mos idear un modelo con la suficiente précision, las dificultades computacionales y el 
error de localizaciôn pueden hacer estas técnicas nada prâcticas. En algunos casos, un 
diseno de agentes guiados por reflejos (el llamado control reactivo) es mas apropiado. 

Uno de estos ejemplos es el robot de seis piernas, o hexâpodo mostrado en la Fi¬ 
gura 25.22(a), que tiene la tarea de andar a través de terreno abrupto. Los sensores del 
robot son enormemente inadecuados para obtener modelos del terreno con la suficien¬ 
te précision para que cualquiera de las técnicas de planificaciôn descritas en las seccio- 
nes previas funcione. Ademâs, incluso si anadiésemos los suficientes sensores precisos, 
los doce grados de libertad (dos por cada pierna) harian del problema de planificacion 
de ruta résultante algo computacionalmente intratable. 

Es posible, aun asi, especificar un controlador directamente sin un modelo expli¬ 
cita del entorno. (Hemos visto ya esto con el controlador PD, que era capaz de dirigir 
un brazo robotico al objetivo sin un modelo explicita de la dinâmica del robot; ello re- 
queria, sin embargo, una ruta de referencia generada a partir de un modelo cinemâti- 
co.) Para el ejemplo de nuestro robot con piernas, especificar una ley de control se 
convierte en algo sorprendentemente simple en el nivel de abstraccion correcto. Una 
ley de control viable podria hacer moverse cada piema en ciclos, de tal forma que par¬ 
te del tiempo se encuentre tocando el suelo y otra parte del tiempo permanezca en el 
aire. Las seis piernas deberfan estar coordinadas de tal forma que très de ellas (en ex- 
tremos opuestos) estuvieran siempre en tierra para proveer de soporte fisico. Este pa¬ 
tron de control es fâcilmente programable y funciona muy bien en terreno piano. En 
terreno abrupto, los obstâculos pueden evitar a las piernas oscilar hacia delante. Este 
problema puede ser solucionado con una régla de control extremadamente simple: 
cuando el movimiento hacia delante de una pierna esté bloqueado, simplemente re- 
trâsala, elévala mâs alto, y prueba de nuevo. El controlador résultante se muestra en 
la Figura 25.22(b) como un autômata finito; constituye un agente guiado por reflejos 
con estado, donde el estado interno esta representado por el indice del estado actual de 
la mâquina (de 5, a s 4 ). 



Figura 25.22 (a) un robot hexâpodo (b) Un autômata finito aumentado (AFSM o augmentedfi- 

nite State machine) para el control de una ünica pierna. Este AFSM reacciona a la retroalimenta- 
ciôn de los sensores: si una pierna se atasca durante la fase de movimiento hacia delante, se elevarâ 
incrementalmente. 
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EMERGENTE 

Variantes de este simple controlador guiado por retroalimentacion pueden ser en- 
contradas para generar un patron robusto para caminar, capaz de hacer maniobrar al ro¬ 
bot a través de terreno abrupto. Claramente, dicho controlador no se ajusta a ningün 
modelo, y no hace uso de deliberacion o de büsqueda para generar contrôles. Cuando se 
ejecuta un controlador de este tipo, la retroalimentacion del entorno représenta un papel 
crucial en el comportamiento generado por el robot. El software por si mismo no espe- 
cifica qué pasarâ cuando el robot se coloque en el entorno. El comportamiento que sur- 
ge por la interactuacion entre un controlador (simple) y un entorno (complejo) es 
normalmente llamado comportamiento emergente. Estrictamente hablando, todos los 
robots mencionados en este capitulo muestran un comportamiento emergente, debido a 
que no existe modelo perfecto. Historicamente, sin embargo, el término se ha reservado 
para técnicas de control que no utilizan modelos explicitos del entorno. El comportamiento 
emergente es también caracteristico de un gran numéro de organismos biologicos. 

Técnicamente, los controladores reactivos son solo una implementacion de una po- 
litica de un MDP (o, si tienen estado interno, de un POMDP). En el Capitulo 17, en- 
contrâbamos diversas técnicas para generar politicas a partir de modelos del robot y su 
entorno. En robotica, crear este tipo de politicas a mano es de gran importancia prâcti- 
ca, debido a nuestra incapacidad para formular modelos precisos. El Capitulo 21 des- 
cribia métodos de refuerzo de aprendizaje para construir politicas a partir de la 
experiencia. Algunos de estos métodos (como el Q-learning y métodos de büsqueda de 
politicas) no requieren modelo del entorno y son capaces de generar controladores de 
alta calidad para los robots, pero a costa de depender de una gran cantidad de datos de 
entrenamiento. 


25.7 Arquitecturas software roboticas 


ARQUITECTURA 

SOFTWARE 

Una metodologia para estructurar algoritmos es la llamada arquitectura software. Una 
arquitectura normalmente incluye lenguajes y herramientas para escribir programas, asi 
como una filosofia global de como los programas deben unirse. 

Las arquitecturas software actuales para la robotica deben decidir como combinar 
control reactivo y control deliberativo basado en modelos. De muchas maneras, el con¬ 
trol reactivo y el deliberativo tienen fuerzas y debilidades ortogonales. El control reac¬ 
tivo es guiado por sensores y apropiado para hacer decisiones de bajo nivel en tiempo 
real. Sin embargo, el control reactivo raramente nos da una solucion plausible a un ni¬ 
vel global, debido a que las decisiones de control global dependen de informacion que 
no puede ser obtenida durante el periodo de toma de decisiones. Para este tipo de pro- 
blemas, el control deliberativo es mas apropiado. 

Consecuentemente, la mayoria de las arquitecturas roboticas usan técnicas reactivas 
en los niveles mas bajos de control con técnicas deliberativas en los niveles mas altos. 
Encontramos una combinaciôn de este tipo en nuestra explicaciôn de los controladores 
PD, donde combinamos un controlador PD (reactivo) con un planificador de rutas (de- 

ARQUITECTURAS 

HIBRIDAS 

liberativo). Las arquitecturas que combinan técnicas reactivas y deliberativas son nor¬ 
malmente llamadas arquitecturas hibridas. 
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ARQUITECTURA DE 
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AUTOMATAS FINITOS 
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La arquitectura de subsumpciôn (Brooks, 1986) es una plataforma para ensamblar con- 
troladores reactivos en autômatas finitos. Los nodos de estos autômatas pueden conte- 
ner chequeos para ciertas variables de sensores, en cuyo caso la ejecucion del autômata 
finito esta condicionada por el resultado de dicho chequeo. Los arcos pueden ser eti- 
quetados con mensajes que se generarân cuando se atraviesen, y que son enviados a los 
motores del robot o a otros autômatas finitos. Adicionalmente, los autômatas finitos po- 
seen temporizadores internos (relojes) que controlan el tiempo que se necesita para 
atravesar un arco. Los autômatas résultantes son normalmente conocidos como autô¬ 
matas finitos aumentados, o AFSMs (augmentée! finite State machines), donde el au- 
mento se refiere al uso de relojes. 

Un ejemplo de un AFSM simple es el autômata de cuatro estados mostrado en la Fi¬ 
gura 25.22(b), que généra un movimiento cfclico de las piemas de un robot hexâpodo. 
Este AFSM implémenta un controlador clclico, cuya ejecucion mayormente no se basa 
en la retroalimentaciôn del entorno. Si la piema queda atascada, lo cual significa que ha 
fallado en ejecutar el movimiento hacia delante, el robot retrasa la piema, la eleva un 
poco mas alto, y trata de realizar el movimiento hacia delante otra vez. De esta manera, 
el controlador es capaz de reaccionar a contingencias surgidas de la interacciôn entre el 
robot y su entorno. 

La arquitectura de subsumpciôn ofrece primitivas adicionales para sincronizar 
AFSMs, y para combinar valores de salida de multiples y posiblemente conflictivos 
AFSMs. De esta forma, permite al programador componer controladores mas com- 
plejos de forma incrémental de una forma ascendente o de abajo arriba. En nuestro 
ejemplo, podrfamos empezar con AFSMs para piernas individuales, seguido por un 
AFSMs para coordinar las multiples piernas. Sobre esto podrfamos implementar com- 
portamientos de mas alto nivel como un evitador de obstâculos, que podrfa implicar 
retroceder y girar. 

La idea de componer controladores robôticos a partir de AFSMs es bastante des¬ 
concertante. Imaginemos por un momento qué dificil séria generar el mismo compor- 
tamiento con alguno de los algoritmos de planificaciôn de rutas descritos en la secciôn 
anterior. Primero, necesitarîamos un modelo preciso del terreno. El espacio de confi- 
guraciôn del robot con seis piernas, cada una de las cuales es conducida por dos moto¬ 
res individuales, tiene en total 18 dimensiones (12 dimensiones para las configuraciones 
de las piernas, y seis para la localizaciôn y orientaciôn del robot relativa a su entorno). 
Incluso si nuestros computadores fueran lo suficientemente râpidos para encontrar ru¬ 
tas en espacios tan sobredimensionados, deberiamos preocuparnos de efectos desagra- 
dables como el robot resbalando por una cuesta. Debido a taies efectos estocâsticos, una 
mta a través del espacio de configuraciôn séria demasiado frâgil, e incluso un contro¬ 
lador PID podria no ser capaz de adaptarse a estas contingencias. En otras palabras, ge¬ 
nerar comportamientos de movimiento deliberativamente es simplemente un problema 
demasiado complejo para los algoritmos de planificaciôn de movimiento de robots de 
hoy en dia. 

Desafortunadamente, la arquitectura de subsumpciôn también tiene problemas. Pri¬ 
mero, los AFSMs son normalmente conducidos por la entrada de los sensores en bruto, 
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CAPA REACTIVA 

CAPA EJECUTIVA 


CAPA DELIBERATIVA 


una aproximaciôn que funciona si los datos de los sensores son fidedignos y contienen 
toda la informaciôn necesaria para la toma de decisiones, pero falla si los datos de los 
sensores deben ser integrados de forma no trivial con el tiempo. Los controladores de 
estilo de subsumpcion han sido hasta aplicados sobre todo en tareas locales, como el se- 
guimiento de una pared o moverse hacia fuentes de luz visibles. Segundo, la falta de de- 
liberaciôn hace dificil cambiar la tarea del robot. Un robot guiado por subsumpcion 
normalmente hace una tarea, y no tiene nociôn de como modificar sus contrôles para aco- 
modarse a los diferentes objetivos de control (como el escarabajo del Apartado 2.2). Fi- 
nalmente, los controladores de subsumpcion suelen ser dificiles de entender. En la 
prâctica, la intrincada interacciôn entre docenas de AFSMs (y el entorno) esta mas alla 
de lo que la mayoria de los programadores humanos pueden entender. Por todas estas 
razones, la arquitectura de subsumpcion es raramente usada en robôtica comercial, a pe- 
sar de su gran importancia histôrica. Sin embargo, algunos de sus descendientes si son 
utilizados. 


Arquitectura de très capas 

Las arquitecturas hibridas combinan reacciôn con deliberaciôn. De lejos, la arquitectu¬ 
ra hibrida mas popular es la arquitectura de très capas, que consiste en una capa re¬ 
activa, una capa ejecutiva y una capa deliberativa. 

La capa reactiva provee de control de bajo nivel al robot. Se caracteriza por fuerte 
bucle sensor-acciôn. Su ciclo de decision se encuentra normalmente en el orden de los 
milisegundos. 

La capa ejecutiva (o capa encadenadora) sirve como union entre las capas reacti¬ 
va y deliberativa. Acepta directivas de la capa deliberativa, y las encadena para la capa 
reactiva. Por ejemplo, la capa ejecutiva podria manejar un conjunto de puntos de ruta 
generados por un planificador de rutas deliberativo, y tomar decisiones como por ejem¬ 
plo qué comportamiento reactivo invocar. Los ciclos de decision en la capa ejecutiva 
se encuentran normalmente en el orden del segundo de tiempo. La capa ejecutiva es tam- 
bién responsable de integrar la informaciôn de los sensores en una representaciôn in¬ 
terna del estado. Por ejemplo, puede almacenar la localizaciôn del robot y rutinas de 
mapeado. 

La capa deliberativa généra soluciones globales para tareas complejas utilizando 
planificaciôn. Debido a la complejidad computacional necesaria para la generaciôn de 
taies soluciones, su ciclo de decision suele encontrarse en el rango de varios minutos. 
La capa deliberativa (o capa planificadora) usa modelos para la toma de decisiones. Es¬ 
tas modelos pueden ser presuministrados o aprendidos de los datos, y normalmente uti- 
lizan informaciôn de estado recolectada en la capa ejecutiva. 

Variantes de la arquitectura de très capas pueden ser encontradas en la mayoria de 
los sistemas software robôticos de hoy en dia. La descomposiciôn en très capas no es 
muy estricta. Algunos sistemas software robôticos poseen capas adicionales, como ca¬ 
pas de interfaz de usuario que controlan la interacciôn con la gente, o capas responsa¬ 
bles de coordinar las acciones del robot con aquellas de otros robots operando en el mismo 
entorno. 






1060 INTELIGENCIA ARTIFICIAL. UN ENFOQUE MODERNO 


Lenguajes de programaciôn robôticos 


LENGUAJE DE 
COMPORTAMIENTOS 


LENGUAJE R0BÔTIC0 
GENÉRICO 


Algunos controladores robôticos han sido implementados con lenguajes de progra¬ 
maciôn de propôsito especial. Por ejemplo, varios programas para la arquitectura de 
subsumpciôn han sido implementados en el lenguaje de comportamientos (behavior 
languagé) definido por Brooks (1990). Este lenguaje es un lenguaje de control basa- 
do en réglas y en tiempo real que compila controladores AFSM. Las réglas individuales 
en una sintaxis parecida a Lisp son compiladas en AFSMs, y multiples AFSMs son 
integrados mediante una colecciôn de mecanismos de paso de mensajes locales y glo¬ 
bales. 

Como ocurre con la arquitectura de subsumpciôn, el lenguaje de comportamientos 
esta limitado a AFSMs simples con una definiciôn relativamente estrecha del flujo de 
comunicaciôn entre môdulos. La investigaciôn reciente se ha construido sobre esta idea, 
llevando a un conjunto de lenguajes de programaciôn similares en esencia al lenguaje 
de comportamientos, pero mas poderosos y râpidos en ejecuciôn. Uno de estos lengua¬ 
jes es el lenguaje robôtico genérico (generic robot languagé o GRL, Horswill, 2000). 
GRL es un lenguaje de programaciôn funcional para programar grandes sistemas de con¬ 
trol modulares. Como en el lenguaje de comportamientos, GRL usa autômatas finitos 
como bloques bâsicos de construcciôn. Ademâs de esto, provee un rango de construc- 
tores mas extenso para définir flujos de comunicaciôn y restricciones de sincronizaciôn 
entre diferentes môdulos que el lenguaje de comportamientos. Los programas en GRL 
son compilados en lenguajes imperativos mas eficientes, como C. 

Otro lenguaje de programaciôn importante (y arquitectura asociada) para software 
robôtica concurrente es el sistema de planificaciôn de acciôn reactiva ( reactive action 
plan System, o RAPS, Firby, 1994). RAPS permite a los programadores especificar ob- 
jetivos, planes (o politicas parciales) asociados con estos objetivos, y condiciones bajo 
las que estos planes podrfan tener éxito. Fundamentalmente, RAPS también provee fa- 
cilidades para manejar los fallos inévitables que se producen con los sistemas robôticos 
reales. El programador puede especificar rutinas de decision para varios tipos de fallo y 
proporcionar una rutina de manejo de excepciones para cada tipo. En arquitecturas de 
très capas, RAPS es normalmente usado en la capa ejecutiva, para manejar contingen- 
cias que no requieren replanificaciôn. 

Hay otros lenguajes que permiten que el razonamiento y el aprendizaje tenga lugar 
en el robot. Por ejemplo, GOLOG (Levesque et al., 1997b) es un lenguaje de progra¬ 
maciôn que de un modo transparente mezcla resoluciôn deliberativa de problemas (pla¬ 
nificaciôn) y especificaciôn directa de control reactivo. Los programas en GOLOG son 
formulados en câlculo de situaciôn (Apartado 10.3), con la opciôn adicional de opera- 
dores de acciôn no deterministas. En adiciôn a la especificaciôn de un programa de con¬ 
trol con posibles acciones no deterministas, el programador puede también tener que 
proporcionar un modelo completo del robot y del entomo. Cada vez que el programa de 
control alcanza un punto de elecciôn no determinista, un planificador (en la forma de 
demostrador de teoremas) es invocado para determinar qué hacer a continuaciôn. De esta 
forma, el programador puede especificar controladores parciales y confiar en planifica- 
dores incorporados para formar la decision final de control. La belleza de GOLOG esta 
en su integraciôn transparente de reactividad y deliberaciôn. A pesar de los énormes re- 
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querimientos de GOLOG (observabilidad plena, estados discretos, modelo completo), 
GOLOG ha proporcionado control de alto nivel para una sérié de robots moviles de in- 
terior. 

CES CES, siglas de C + + para sistemas empotrados (C + + for embedded Systems ), es 

un lenguaje que extiende C + + e integra probabilidades y aprendizaje (Thrun, 2000). 
Los tipos de datos en CES son distribuciones de probabilidad, permitiendo al progra- 
mador calcular con information imprecisa sin el esfuerzo normalmente requerido para 
implementar técnicas probabilisticas. Y lo que es mas importante, CES hace posible en- 
trenar el software robotico con ejemplos, muy parecido a los algoritmos de aprendizaje 
descritos en el Capitulo 20. CES permite a los programadores dejar «huecos» en el cô- 
digo que son rellenados por funciones aprendibles, tfpicamente representaciones para- 
métricas diferenciales como redes neuronales. Estas funciones son enfonces aprendidas 
inductivamente en fases de entrenamiento explicitas, donde el entrador debe especificar 
el comportamiento de salida deseado. CES ha demostrado trabajar bien en dominios con¬ 
tinues y parcialmente observables. 

alisp Alisp (André y Russell, 2002) es una extension de Lisp. ALisp permite a los pro¬ 

gramadores especificar puntos de élection no deterministas, similarmente a los puntos 
de decision de GOLOG. Sin embargo, en lugar de confiar en un comprobador de teore- 
mas para tomar las decisiones, ALisp aprende inductivamente la action correcta mediante 
aprendizaje de refuerzo. De esta manera, ALisp puede ser visto como un medio flexi¬ 
ble para incorporar conocimiento del dominio (especialmente conocimiento acerca de 
la estructura jerârquica de los comportamientos deseados) en un sistema de aprendiza¬ 
je por refuerzo. Hasta ahora ALisp solo ha sido aplicado a problemas roboticos en si¬ 
mulation, pero proporciona una metodologla prometedora para construir robots que 
aprenden a través de la interaction con el entorno. 


25.8 Dominios de aplicacion 


Ahora enumeraremos algunos de los dominios de aplicacion principales para la teeno- 
logia robotica. 

Industria y agricultura. Tradicionalmente, los robots han sido utilizados en areas 
que requieren un trabajo dificil por parte de los humanos, aunque estân lo suficientemente 
estructuradas para ser manejadas por automatizacion robotica. El mejor ejemplo es la 
linea de ensamblaje, donde los manipuladores de forma rutinaria realizan tareas como 
ensamblar, colocar piezas, manejar materiales, soldar y pintar. En algunas de estas ta¬ 
reas, los robots se han hecho mas rentables que los trabajadores humanos. 

En el exterior, algunas de las mâquinas pesadas que se utilizan para cosechar, mi- 
nar, o excavar la tierra han sido transformadas en robots. Por ejemplo, un proyecto re- 
ciente de Carnegie Mellon ha demostrado que los robots pueden eliminar la pintura de 
grandes barcos alrededor de 50 veces mas râpido que las personas, y con un impacto am- 
biental mucho mas reducido. Prototipos de robots mineros autonomos son mas râpidos 
y precisos que los humanos para el transporte de minerai en minas subterrâneas. Los ro¬ 
bots han sido utilizados para generar mapas de alta précision de minas abandonadas y 
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sistemas de alcantarillado. Mientras que muchos de estos sistemas son todavia prototi- 
pos, es solo cuestiôn de tiempo que los robots asuman la mayoria del trabajo semi-me- 
cânico llevado a cabo actualmente por los humanos. 

Transporte. El transporte robotico tiene varias facetas: desde helicôpteros autôno- 
mos que entregan objetos a localizaciones que podrian ser dificiles de accéder por otros 
medios, a sillas de ruedas automâticas que transportan gente que es incapaz de contro- 
larlas por si misma, o portadores de carga autonomos que superan a los humanos expe- 
rimentados al transportar contenedores desde barcos a camiones en muelles de carga. Un 
primer ejemplo de robot para transporte en el interior, o recadero, es el robot Helpmate 
mostrado en la Figura 25.23(a). Este robot ha sido desplegado en docenas de hospitales 
para transportar comida y otros objetos. Los investigadores han desarrollado sistemas 
roboticos con forma de coche que pueden navegar autonomamente en autopistas o a tra- 
vés de terreno extemo a la carretera. En entornos industriales, los vehiculos autonomos 
son desplegados rutinariamente para transportar bienes en almacenes y entre lineas de 
produccion. 

Algunos de estos robots requieren modificaciones en su entorno para poder realizar 
sus funciones. Las modificaciones mas comunes son ayudas de localizaciôn como bu- 
cles inductivos en el suelo, faros activos, étiquetas de codigos de barras y satélites GPS. 
Un reto abierto en robôtica es el diseno de robots que puedan usar pistas naturales, en 
lugar de dispositivos artificiales, para navegar, sobre todo en entomos como el océano 
profundo donde no puede ser utilizado GPS. 

Entornos peligrosos. Los robots han ayudado a la gente a limpiar residuos nuclea- 
res, muy notablemente en Chernobyl y Three Mile Island. Los robots estuvieron présentes 
tras el colapso del World Trade Center, donde entraron en estructuras aparentemente de- 
masiado peligrosas para la büsqueda humana y grupos de rescate. 



Figura 25.23 (a) El robot Helpmate transporta comida y otros elementos médicos en docenas de 

hospitales alrededor del mundo. (b) Robots quirûrgicos en la sala de operaciones (por da Vinci Sur- 
gical Systems). 
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Algunos pafses han utilizado robots para transportar municion y desactivar bombas 
(una tarea notablemente peligrosa). Un nümero de proyectos de investigacion estân ac- 
tualmente desarrollando prototipos roboticos para limpiar campos de minas, en tierra o 
por mar. La mayorfa de los robots existentes para estas tareas son teleoperador, un hu- 
mano los opéra mediante control remoto. Proveer a este tipo de robots de autonomfa es 
el siguiente paso importante. 

Exploration. Los robots han ido a donde nadie ha ido antes, incluyendo la superfi¬ 
cie de Marte. (Véase Figura 25.1(a).) Los brazos roboticos asisten a los astronautas en 
la colocacion y recogida de satélites y la construccion de la Estaciôn Espacial Interna- 
cional. Los robots también ayudan a explorar por debajo del mar. Son rutinariamente uti- 
lizados para obtener mapas de barcos hundidos. La Figura 25.24 muestra un robot 
realizando un mapa de una mina de carbon abandonada, mediante un modelo 3-D de la 
mina obtenido mediante sensores de rango. En 1996, un equipo de investigadores sol- 
taron un robot con piemas en el crâter de un volcan activo para obtener datos importantes 
drones para la investigacion climâtica. Vehiculos aéreos no tripulados conocidos como drones 

son usados para operaciones militares. Los robots estân pasando a ser herramientas muy 
efectivas para recolectar informacion en dominios que son dificiles (y peligrosos) de ac¬ 
céder para la gente. 

Salud. Los robots estân siendo usados cada vez mâs para ayudar a los cirujanos en 
la colocacion de instrumentes cuando operan con ôrganos tan interrelacionados como 
el cerebro, ojos y corazon. La Figura 25.23(b) muestra un sistema de este tipo. Los ro¬ 
bots han pasado a ser herramientas indispensables en ciertos tipos de reemplazos de ca- 
deras, gracias a su gran précision. En estudios piloto, se ha comprobado que los 
dispositivos roboticos reducen el riesgo de lésion cuando se realizan colonoscopias. Fue- 
ra de la sala de operaciones, los investigadores han empezado a desarrollar ayudas ro- 
boticas para la gente anciana o discapacitada, como andadores roboticos inteligentes y 
juguetes inteligentes que recuerdan cuândo se debe tomar la medicaciôn. 

Servicios personales. Los servicios son una aplicacion reciente en el dominio de la 
robotica. Los robots de servicio ayudan a los individuos a realizar tareas diarias. Los ro¬ 
bots de servicio domésticos comercialmente disponibles incluyen aspiradoras autono- 



Figura 25.24 (a) Un robot creando un mapa de una mina abandonada de carbon, (b) Un mapa 

3-D de la mina obtenido por el robot. 
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mas, cortacéspedes, y caddies de golf. Todos estos robots pueden navegar autônomamente 
y realizar sus tareas sin ayuda humana. Algunos robots de este tipo operan en lugares 
püblicos, como los quioscos de informaciôn roboticos que han sido emplazados en cen¬ 
tras comerciales y ferias de comercio, o en museos como gufas turisticos. Las tareas de 
servicio requieren interacciôn humana, y la habilidad de enfrentarse robustamente con 
entornos impredecibles y dinâmicos. 

Entretenimiento. Los robots han comenzado a conquistar la industria de los juguetes 
y del entretenimiento. Vimos el Sony AIBO en la Figura 25.4(b); este juguete robotico 
en forma de perro esta empezando a ser utilizado como plataforma de investigacion en 
los laboratorios de IA alrededor del mundo. Una tarea de IA desafiante que se estudia 
fûtbol robotico con esta plataforma es el futbol robotico, una competiciôn muy parecida al fütbol hu- 
mano, pero jugado por robots moviles autônomos. El fütbol robotico provee de grandes 
oportunidades para la investigacion en la IA, ya que plantea toda una gama de proble- 
mas prototipo para muchas otras aplicaciones robôticas mas sérias. Las competiciones 
de fütbol robotico anuales han atraido a un gran nümero de investigadores de IA y ana- 
dido mucha animaciôn al campo de la robotica. 

Aumento humano. Un dominio de aplicaciôn final para la tecnologia robotica es el 
aumento humano. Los investigadores han desarrollado mâquinas con piemas andantes 
que pueden transportar gente, como si se tratara de sillas de ruedas. Varios esfuerzos de 
investigacion actualmente se centran en el desarrollo de dispositivos que hagan a la gen¬ 
te andar o mover sus brazos, y proveen de fuerzas adicionales mediante anadidos extra- 
esqueléticos. Si dichos dispositivos son fijados permanentemente, se podrfa pensar en 
ellos como miembros roboticos artificiales. La teleoperaciôn robotica implica llevar a 
cabo tareas a través de largas distancias, con la ayuda de dispositivos roboticos. Una con- 
figuraciôn popular para la teleoperaciôn robotica es la configuraciôn maestro-esclavo, 
en la cual un manipulador robotico émula el movimiento de un operador humano robo¬ 
tico, medido a través de una interfaz tâctil. Todos estos sistemas aumentan la habilidad 
de la gente para interactuar con sus entornos. Algunos proyectos intentan incluso repli- 
car humanos, al menos a un nivel muy superficial. Los robots humanoides estân dispo¬ 
nibles comercialmente en estos momentos gracias a varias companlas en Japon. 


25.9 Resumen 


El interés de la robotica se centra en los agentes inteligentes que manipulan el mundo 
fisico. En este capitulo, hemos aprendido los siguientes conceptos bâsicos sobre el hard¬ 
ware y el software roboticos. 

• Los robots estân equipados con sensores para percibir su entorno y efectores con 
los que pueden aplicar fuerzas fisicas en su entorno. La mayorfa de los robots son 
o bien manipuladores anclados en posiciones fijas o robots moviles que se pue¬ 
den mover. 

• La percepciôn robotica trata de determinar cantidades relevantes para la decision 
a partir de los datos de los sensores. Para ello, necesitamos una representaciôn in- 
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tema y un método para actualizar su représentation interna a lo largo del tiempo. 
Ejemplos comunes de problemas perceptuales incluyen localizaciôn y elaboraciôn 
de mapas. 

• Los algoritmos de filtrado probabilfstico como los filtres de Kalman y filtres de 
partlculas son ütiles para la percepciôn de los robots. Estas técnicas mantienen 
el estado de creencia, por ejemplo, una distribuciôn posterior sobre las variables 
de estado. 

• La planificaciôn del movimiento de un robot es normalmente hecha en el espacio 
de configuracion, donde cada punto especifica la localizaciôn y la orientaciôn del 
robot y los ângulos de sus articulaciones. 

• Los algoritmos de büsqueda en los espacios de configuracion incluyen técnicas de 
descomposiciôn en celdas, que descomponen el espacio de todas las configura- 
ciones en varias celdas finitas, y técnicas de esqueletizaciôn, que proyectan espa¬ 
cios de configuracion en estructuras de menos dimensiones. El problema de 
planificaciôn de movimiento se resuelve entonces utilizando büsqueda en estas es¬ 
tructuras mas simples. 

• Una ruta encontrada por un algoritmo de büsqueda puede ser ejecutada utilizan¬ 
do dicha ruta como trayectoria de referencia para controladores PID. 

• Las técnicas de campo de potencial hacen navegar a los robots mediante funcio- 
nes de potencial, defmidas segün la distancia a los obstâculos y a la localizaciôn 
objetivo. Las técnicas de campo de potencial pueden quedar estancadas en un mi- 
nimo local, pero pueden generar movimiento directamente sin necesidad de pla¬ 
nificaciôn de rutas. 

• Algunas veces, es mas sencillo especificar un controlador robôtico directamente, 
mas que derivar una ruta desde un modelo explicita del entorno. Dichos contro¬ 
ladores pueden ser a menudo escritos como simples autômatas finitos. 

• La arquitectura de subsumpciôn permite a los programadores componer los con¬ 
troladores robôticos a partir de autômatas finitos interconectados, aumentados 
mediante temporizadores incorporados. 

• Las arquitecturas de très capas son marcos comunes para el desarrollo de softwa¬ 
re robôtico que intégré deliberaciôn, secuenciaciôn de subobjetivos y control. 

• Existen lenguajes de programaciôn de propôsito general que facilitan el desarro¬ 
llo de software robôtico. Estos lenguajes proporcionan construcciones para desa- 
rrollar software multi-hilo, para integrar directivas de control en la planificaciôn, 
y para aprender de la experiencia. 



Notas bibliogrâficas e histôricas 

La palabra robot fue popularizada por el dramaturgo checo Karen Capek en su obra de 
1921 R.U.R. (Rossum’s Universal Robots). Los robots, que crecian quimicamente en lu- 
gar de ser construidos mecânicamente, terminaron sintiendo resentimiento por sus maes¬ 
tros y decidiendo asumir el control. Parece ser (Glane, 1978), que de hecho fue el 
hermano de Capek, Josef, quien primera combinô las palabras «robota» (trabajo obli- 
gatorio) y «robotnik» (siervo) para producir «robot» en su historia corta de 1917 Opilec. 
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El término robôtica fue usado por primera vez por (Asimov, 1950). La robôtica (bajo 
otros nombres), tiene una historia mucho mas larga, sin embargo. En la mitologia grie- 
ga, un hombre mecânico llamado Talos fue supuestamente disenado y constmido por 
Hephaistos, el dios griego de la metalurgia. Se construyeron autômatas maravillosos du¬ 
rante el siglo xviii (El pato mecânico de Jacques Vaucanson de 1738 es un ejemplo tem- 
prano) pero los comportamientos complejos que exhibian se mantenian solamente en el 
avance. Posiblemente, el ejemplo mas antiguo de dispositivo programable parecido a un 
robot fue el telar de Jacquard (1805), descrito en el Capitulo 1. 

El primer robot comercial fue un brazo robôtico llamado Unimate, abreviatura de 
universal automation. Unimate fue desarrollado por Joseph Engelberger y George De- 
vol. En 1961, el primer robot Unimate se vendiô a General Motors, donde fue utilizado 
para fabricar tubos de télévision. 1961 fue también el ano en que Devol obtuvo la pri¬ 
mera patente en Estados Unidos relacionada con los robots. 11 anos mas tarde, en 1972, 
Nissan Corp. fue la primera compafha que automatizô una cadena entera de ensambla- 
je con robots, desarrollados por Kawasaki con robots suministrados por la compama Uni- 
mation de Engelberger y Devol. Este desarrollo iniciô una revoluciôn mayor que tuvo 
lugar principalmente en Japon y Estados Unidos, y que todavia continua. Unimation re- 
pitiô en 1978 con el desarrollo del robot PUMA, abreviatura de Programable Universal 
Machine for Assembly. El robot PUMA, inicialmente desarrollado por General Motors, 
fue el estândar de facto para la manipulaciôn robotica en las dos décadas siguientes. En 
el présente, el nümero de robots operando se estima de un millôn alrededor de todo el 
mundo, mas de la mitad de los cuales estân instalados en Japon. 

La literatura sobre la investigaciôn en robôtica puede ser dividida a grandes rasgos 
en dos partes: robots môviles y manipuladores estâticos. El «tortuga»de Grey Walter, 
construido en 1948, puede ser considerado el primer robot môvil autônomo, a pesar de 
que su sistema de control no era programable. El «Hopkins Beast», construido en los 
primeros 60 en la Universidad Johns Hopkins, era mucho mas sofisticado; ténia un 
hardware de reconocimiento de patrones y podia reconocer la cubierta protectora de un 
enchufe estândar AC. ; Era capaz de buscar enchufes, enchufarse en ellos, y enfonces re- 
cargar sus baterias! Sin embargo, el Beast ténia un repertorio limitado de habilidades. 
El primer robot de propôsito general fue «Shakey», desarrollado en lo que era enfonces 
el Stanford Research Institute (ahora SRI) al final de los 60 (Fikes y Nilsson, 1971; Nils- 
son, 1984). Shakey fue el primer robot que integraba percepciôn, planificaciôn y ejecu- 
ciôn, y mucha de la investigaciôn ulterior en IA fue influenciada por este notable logro. 
Otros proyectos influyentes incluyen el Stanford Cart y el CMU Rover (Moravec, 1983). 
Cox y Wilfong (1990) describe trabajo clâsico en vehiculos autônomos. 

El campo de la construcciôn de mapas en robôtica ha evolucionado a partir de dos 
orfgenes distintos. El primer hilo empezô con el trabajo de Smith y Cheeseman (1986), 
que aplicô los filtras de Kalman simultâneamente a los problemas de localizaciôn y pro- 
blema de construcciôn de mapas. Este algoritmo fue implementado por primera vez por 
Moutarlier y Chatila (1989), y mâs tarde mejorado por Leonard y Durrant-Whyte (1992). 
Dissanayake et al. (2001) describe el estado del arte. El segundo hilo comenzô con el 
desarrollo de la representaciôn de la rejilla de ocupaciôn para la construcciôn proba- 
bilistica de mapas, que especifica la probabilidad de que cada localizaciôn ( x, y) esté ocu- 
pada por un obstâculo (Moravec y Elfes, 1985). Una révision del estado del arte en la 
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generaciôn de mapas puede encontrarse en (Thrun, 2002). Kuipers y Levitt (1988) fue- 
ron los primeras en proponer un mapeado topolôgico en lugar de métrico, motivado por 
los modelos de cogniciôn espacial humana. 

Las primeras técnicas de localizaciôn del robot fueron examinadas por Borenstein 
et al. (1996). A pesar de que el filtrado de Kalman era bien conocido como método de 
localizaciôn en la teorfa de control por décadas, la formulaciôn probabilistica general 
del problema de localizaciôn no apareciô en la literatura sobre IA hasta mucho después, 
a través del trabajo de Tom Dean y sus companeros (1990, 1990) y Simmons y Koenig 
(1995). El trabajo posterior introdujo el término de localizaciôn de Markov. La primera 
aplicaciôn en el mundo real de esta técnica fue realizada por Burgard et al. (1999), me- 
diante una sérié de robots que fueron desplegados en museos. La localizaciôn Monte Car¬ 
lo basada en filtras de particulas fue desarrollada por Fox et al. (1999) y ahora es 
ampliamente utilizada. El fîltro de particulas Rao-Blackwellizado combina filtrado de 
particulas para la localizaciôn del robot con un filtrado exacto para la construcciôn del 
mapa (Murphy y Rusell, 2001; Montemerlo et al., 2002). 

La investigaciôn en robôtica môvil ha sido estimulada en la ültima década por dos 
competiciones importantes. La competiciôn anual de robots môviles de la AAAI empezô 
en 1992. El primer ganador de la competiciôn fue Carmel (Congdon et al., 1992). El 
progreso ha sido estable e impresionante: en la competiciôn mas reciente (2002), los ro¬ 
bots tenian que entrar dentro del complejo de la conferencia, encontrar el camino a la 
mesa de registro, registrarse para la conferencia, y dar una charla. La competiciôn Ro- 
bocup, iniciada en 1995 por Kitano y companeros (1997), se ha marcado como objeti- 
vo para 2050 «desarrollar un equipo de robots humanoides totalmente autônomos que 
puedan ganar al campeôn del mundo humano al fütbol». El juego se desarrolla en ligas 
para robots simulados, robots con ruedas de diferentes tamanos, y robots Sony Aibo de 
cuatro piemas. En 2002, el evento atrajo equipos de casi 30 paises diferentes y unos 
100.000 espectadores. 

El estudio de robots manipuladores, llamados originalmente mâquinas mano-ojo, 
ha evolucionado en lineas bastante diferenciadas. El primer gran logro en crear una mâ- 
quina mano ojo fue el MH-1 de Heinrich Ernst, descrito en su tesis doctoral del MIT 
(Ernst, 1961). El proyecto Machine Intelligence de Edimburgo también evidenciô un sis- 
tema de ensamblaje impresionante basado en vision llamado Freddy (Michie, 1972). Des¬ 
pués de estos esfuerzos pioneros, una gran parte del trabajo se centra en algoritmos 
geométricos para problemas de planificaciôn de movimiento deterministas y enteramente 
observables. La complejidad Pspace de la planificaciôn del movimiento de un robot se 
mostrô en un articulo de Reif (1979). La representaciôn del espacio de configuraciôn es 
debida a Lozano-Perez (1983). Altamente influyentes fueron una sérié de articulos de 
Schwartz y Shafir sobre lo que ellos llamaron problemas de motores de piano (Schwartz 
et al., 1987). 

La descomposiciôn recursiva en celdas para la planificaciôn del espacio de confi¬ 
guraciôn fue introducida por Brooks y Lozano-Pérez (1985) y mejorada significativa- 
mente por Zhu y Latombe (1991). Los primeros algoritmos de esqueletizaciôn se basaron 
en los diagramas de Voronoi (Rowat, 1979) y los grafos de visibilidad (Wesley y Lo- 
zano-Pérez, 1979). Guibas et al. (1992) desarrollaron técnicas eficientes para calcular 
los diagramas de Voronoi incrementalmente, y Choset (1996) generalizô los diagramas 
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de Voronoi a problemas de planificaciôn de movimiento mucho mas amplios. La tesis 
de doctorado de John Canny (1988) estableciô el primer algoritmo exponencial para la 
planificaciôn de movimiento usando un método diferente de esqueletizaciôn llamado el 
algoritmo silueta. El texto de Jean-Claude Latombe (1991) cubre una variedad de apro- 
ximaciones al problema de planificaciôn de movimiento. (Kavraki et al., 1996) desarrollô 
mapas de carretera probabillsticas, que son actualmente el método mas efectivo. La pla¬ 
nificaciôn de movimiento précisa con sensorizaciôn limitada fue investigada por (Lo- 
zano-Pérez et al., 1984) y Canny y Reif (1987) usando la idea de intervalo de 
incertidumbre en lugar de la de incertidumbre probabilistica. La navegaciôn basada en 
seriales (Lazanas y Latombe, 1992) usa algunas de estas mismas ideas en el campo de 
los robots môviles. 

El control de robots como sistemas dinâmicos (ya sea para manipulaciôn o navega¬ 
ciôn) ha generado una inmensa cantidad de literatura, la cual este capltulo apenas toca. 
Los trabajos importantes incluyen una trilogla sobre control de impedancia por Hogan 
(1985) y un estudio general de la dinâmica del robot por Featherstone (1987). Dean and 
Wellman (1991) se encuentran entre los primeras que intentaron enlazar la teoria de con¬ 
trol y los sistemas de planificaciôn de IA. Debemos très libros clâsicos sobre las mate- 
mâticas de la manipulaciôn robôtica a Paul (1981), Craig (1989) y Yoshikawa (1990). 
El area del agarre es también importante en robôtica, el problema de determinar un aga- 
rre estable es bastante diflcil (Mason y Salisbury, 1985). El agarre eficiente requiere sen¬ 
sorizaciôn de toque, o retroalimentaciôn tâctil, para determinar fuerzas de contacto y 
detectar deslizamiento (Fearing Hollerbach, 1985). 

El control por campo de potencial, que intenta resolver la planificaciôn de movimiento 
y los problemas de control simultâneamente, fue introducido en la literatura sobre ro¬ 
bôtica por Khatib (1986). En la robôtica môvil, esta idea fue vista como una soluciôn 
prâctica al problema de la evitaciôn de obstâculos, y fue mas tarde extendido en un al¬ 
goritmo llamado histogramas de campo vectorial por Borenstein (1991). Las funcio- 
nes de navegaciôn, la version robôtica de la politica de control para los MDPs 
deterministas, fueron introducidas por Koditschek (1987). 

El tôpico de arquitecturas software para robôtica généra mucho debate. El bien co- 
nocido candidato de la IA (la arquitectura de très capas) proviene del diseno de Shakey 
y es revisado por Gat (1998). La arquitectura de subsumpciôn es debida a Rodney Bro- 
oks (1986), a pesar de que ideas similares fueron desarrolladas independientemente por 
Braitenberg (1984), cuyo libre, Vehicles, describe una sérié de robots simples basados 
en la aproximaciôn de comportamientos. El éxito del robot hexâpodo de Brook fue se- 
guido por unos cuantos proyectos. Connell, en su tesis (1989), desarrollô un robot mô¬ 
vil capaz de recoger objetos que era plenamente reactivo. Extensiones del paradigma 
basado en comportamientos en sistemas multi-robot pueden ser encontrados en (Mata- 
ric, 1997) y (Parker, 1996). GRL (Horswill, 2000) y COLBERT (Konolige, 1997) abs- 
traen las ideas de la robôtica basada en comportamientos concurrentes en lenguajes de 
control de robots. Arkin (1998) inspecciona el estado del arte. 

Los autômatas situados (Rosenschein, 1985; Kaelbling y Rosenschein, 1990), des- 
critos en el Capltulo 7, han sido también utilizados para el control de robots môviles en 
tareas de exploraciôn y entrega. Los autômatas situados estân estrechamente relaciona- 
dos con disenos basados en comportamientos en el sentido en que consisten en autômatas 
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finitos que rastrean aspectos del estado del entomo usando circuiteria combinatoria. Mien- 
tras que la aproximaciôn basada en comportamientos acentüa la ausencia de represen- 
taciôn explicita, los autômatas situados son construidos algoritmicamente a partir de 
modelos declarativos del entorno de tal forma que el contenido representacional de cada 
registro de estado esta bien definido. 

Existen varios buenos libres recientes sobre robotica môvil. Ademâs de los libros 
mencionados anteriormente, la colecciôn de Kortenkamp et al. (1998) provee una vision 
general de sistemas y arquitecturas de robots môviles contemporâneas. Dos textos re¬ 
cientes de Dudek y Jenkin (2000) y Murphy (2000) cubren la robotica de un modo mas 
general. Un libro reciente sobre manipulaciôn robotica escribe en la direcciôn de tôpi- 
cos avanzados como el movimiento adaptado (Mason, 2001). La mayor conferencia so¬ 
bre robotica es la IEEE International Conférence on Robotics and Automation. Las 
publicaciones sobre robotica incluyen IEEE Robotics and Automation, el International 
Journal of Robotics Research, y Robotic and Autonomous Systems. 



EJERCICIOS 


25.1 La localizaciôn de Monte Carlo esta umbralizada para cualquier tamano de mues- 
tra finito (por ejemplo, el valor esperado de la localizaciôn computada por el algoritmo 
difiere del valor realmente esperado) debido a la forma en que trabaja el filtrado de par- 
ticulas. En esta pregunta, se pide cuantificar este umbral. 

Para simplificar, consideremos un mundo con cuatro posibles localizaciones para el 
robot: X = {x,,x 2 yc 3 ,x 4 }. Inicialmente, dibujamos N> 1 muestras uniformemente entre es¬ 
tas localizaciones. Como es habituai, es perfectamente aceptable si mas de una muestra 
se généra a partir de las localizaciones X. Sea Z la variable sensor booleana caracteri- 
zada por las siguientes probabilidades condicionales: 


P(z | x,) = 0,8 
P(z j x 2 ) = 0,4 
P(z j x 3 ) = 0,1 
P(z j x 4 ) = 0,1 


P(->z | Xj) = 0,2 
P(-'z j x 2 ) = 0,6 
P(->z | x 3 ) = 0,9 
P(~>z | x 4 ) = 0,9 


MCL usa estas probabilidades para generar pesos de particulas, que son posteriormente 
normalizadas y usadas en el proceso de remuestreo. Por simplicidad, asumamos que solo 
generamos una ünica nueva muestra en el proceso de remuestreo, independientemente de 
N. Esta muestra puede corresponder a alguna de las cuatro localizaciones en X. De esta 
forma, el proceso de muestreo define una distribuciôn de probabilidad sobre X. 


a) /Cuâl es la distribuciôn de probabilidad sobre X résultante para esta nueva 
muestra? Responda esta pregunta de forma separada para N — 1,..., 10 y para 
N = oo. 

b) La diferencia entre dos distribuciones de probabilidad P y Q puede ser medida 
por la divergencia KL, que se define como 


KLP{P, Q) = Y P(x.) IogP(xJ\Q(x ,) 
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Cuâles son las divergencias KL entre las distribuciones en (a) y la posterior ver- 
dadera? 

c) r,Qué modificaciôn en la formulaciôn del problema (;no en el algoritmo!) ga- 
rantizaria que el estimador especlfico anterior no esta umbralizado incluso para 
valores finitos de NI Indique al menos dos de estas modificaciones (cada una 
de las cuales debe ser suficiente). 

25.2 Implemente la localizacion de Monte Carlo para un robot simulado con sensores 
de rango. Un mapa de rejilla y datos de rango estân disponibles en el repositorio de co- 
digo de aima.cs.berkeley.edu. El ejercicio esta completado si usted puede demostrar una 
localizacion global con éxito del robot. 

25.3 Considéré el brazo robotico mostrado en la Figura 25.12. Asuma que el elemen- 
to de la base del robot tiene 60cm de largo y que el brazo y el antebrazo miden cada uno 
40cm de largo. Como se discute en el Apartado 25.4, la cinemâtica inversa de un robot 
habitualmente no es ünica. Enuncie una soluciôn explicitamente cerrada para la cine¬ 
mâtica inversa de este brazo. ;,Bajo qué condiciones es la soluciôn ünica? 

25.4 Implemente un algoritmo para calcular el diagrama de Voronoi de un entorno 2- 
D arbitrario, descrito por una matriz booleana n x n. Ilustre su algoritmo dibujando el 
diagrama de Voronoi para 10 mapas interesantes. /Cuâl es la complejidad de su algo¬ 
ritmo? 

25.5 Este ejercicio explora la relaciôn entre el espacio de configuraciôn y el espacio 
de trabajo usando los ejemplos mostrados en la Figura 25.25. 

a) Considéré la configuraciôn del robot mostrada de la Figura 25.25(a) a (c), ig- 
norando el obstâculo mostrado en cada uno de los diagramas. Dibuje las confi- 
guraciones del brazo correspondientes en el espacio de configuraciôn ( Pista : cada 
configuraciôn del brazo se mapea como un ünico punto en el espacio de confi¬ 
guraciôn, como se ilustra en la Figura 25.12(b).) 

b) Dibuje el espacio de configuraciôn para cada uno de los diagramas de espacio 
de trabajo en Figura 25.25(a)-(c). ( Pista : Los espacios de configuraciôn com- 
parten con el mostrado en la Figura 25.25(a) la région que corresponde a la auto- 
colisiôn, pero las diferencias provienen de la falta de obstâculos circundantes y 
las diferentes localizaciones de los obstâculos en estas figuras individuales.) 

c ) Para cada uno de los puntos negros en la Figura 25.25(e)-(f), dibuje las corres¬ 
pondientes configuraciones del brazo robotico en el espacio de trabajo. Ignore 
las regiones sombreadas en este ejercicio. 

d) Los espacios de configuraciôn mostrados en la Figura 25.25(e)-(f) han sido to- 
dos generados por un ünico obstâculo en el espacio de trabajo (sombreado os- 
curo), mâs las limitaciones producidas por la auto-colisiôn (sombreado claro). 
Dibuje, para cada diagrama, el obstâculo del ârea de trabajo que se correspon¬ 
de con el ârea oscura sombreada. 

e ) La Figura 25.25(d) ilustra que un obstâculo piano simple puede descomponer el 
ârea de trabajo en dos regiones desconectadas. / Cuâl es el mâximo nümero de 
regiones desconectadas que pueden ser creadas insertando un obstâculo piano 
en un ârea de trabajo conectada sin obstâculos, para un robot de dos grados de 
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libertad? Dé un ejemplo, y razone por qué no se puede crear un nümero mayor 
de regiones desconectadas. Qué ocurrina con un obstâculo no piano? 

25.6 Considéré el robot simplificado mostrado en la Figura 25.26. Suponga que las 
coordenadas cartesianas del robot se conocen siempre, como las de su localizaciôn ob- 
jetivo. Sin embargo, las localizaciones de los obstâculos son desconocidas. El robot pue¬ 
de sensorizar obstâculos en su proximidad inmediata, como se ilustra en esta figura. Por 
simplicidad, asumimos que el movimiento del robot esta libre de mido, y el espacio de 
estados es discreto. La Figura 22.26 es solo un ejemplo; en este ejercicio se requiere que 
indique todos los posibles mundos de rejilla con una ruta valida desde el comienzo has- 
ta la localizaciôn objetivo. 

a) Disene un controlador deliberativo que garantice que el robot siempre alcanza 
su localizaciôn objetivo cuando esto sea posible. El controlador deliberativo pue¬ 
de memorizar medidas en forma de un mapa que esta siendo obtenido mientras 
el robot se mueve. Entre movimientos individuales, puede pasar cualquier tiem- 
po arbitrario deliberando. 

b) Ahora disene un controlador reactivo para la misma tarea. Este controlador no 
puede memorizar medidas anteriores de los sensores (;no puede construir un 
mapa!). En lugar de ello, debe tomar todas sus decisiones basândose en medi- 
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Figura 25.26 Robot simplificado en un laberinto. Véase Ejercicio 25.6. 


das actuales, que incluyen el conocimiento de su propia localizaciôn y la del ob- 
jetivo. El tiempo para tomar una decision debe ser independiente del tamano del 
entorno o del nümero de pasos temporales anteriores. / ; Cuâl es el nümero mâ- 
ximo de pasos que debe tomar el robot para llegar al objetivo? 
c) <' ; C6mo se comportarian sus controladores de (a) y (b) si se aplicara alguna de 
las siguientes seis condiciones?: espacio de estados continuo, ruido en la per- 
cepciôn, ruido en el movimiento, ruido en la percepciôn y en el movimiento, lo¬ 
calizacion desconocida del objetivo (el objetivo solo puede ser detectado cuando 
se encuentre en el interior del rango de los sensores), u obstâculos môviles. Para 
cada condicion y para cada controlador, dé un ejemplo de una situaciôn en la 
que el robot falle (o explique por qué no puede fallar). 

25.7 En la Figura 25.22(b), encontrâbamos un autômata finito aumentado para el con- 
trol de una pierna del robot hexâpodo. En este ejercicio, el objetivo es el diseno de un 
autômata finito aumentado que, cuando esté combinado con seis copias del controlador 
individual para una piema, resuite en una locomociôn eficiente y estable. Para este pro- 
pôsito, debe aumentar el controlador para la pierna para pasar mensajes a su nuevo au¬ 
tômata finito aumentado, y para esperar hasta que otros mensajes le lleguen. Razone por 
qué su controlador es eficiente, de tal forma que no gaste energia innecesariamente (por 
ejemplo, al deslizarse las piemas) y que propulse al robot a unas velocidades razona- 
blemente altas. Pruebe que su controlador satisface la condicion de estabilidad dada en 
el Apartado 25.2. 

25.8 (Este ejercicio fue por primera vez disenado por Michael Genesereth y Nils Nils- 
son. Puede ser realizado desde alumnos de primer curso hasta alumnos ya graduados.) 
Los humanos estân tan adaptados a tareas bâsicas como tomar tazas o apilar bloques, 
que a menudo olvidan lo complejas que son estas tareas. En este ejercicio descubrirâ 
la complejidad y recapitularâ los ültimos 30 anos de desarrollos en robôtica. Primero, 
elija una tarea, como construir un arco con très bloques. Enfonces, construya un robot 
a partir de cuatro humanos de la siguiente forma: 
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Cerebro. El trabajo del cerebro es obtener un plan para conseguir el objetivo, y di- 
rigir las manos en la ejecucion del plan. El cerebro recibe entrada de los ojos, pero no 
puede ver la escena directamente. El cerebro es el ünico que conoce cuâl es el objetivo. 

Ojos. El trabajo de los ojos es dar una breve description de la escena al cerebro. Los 
ojos deben permanecer unos cuantos pies alejados del entorno de trabajo, y pueden pro- 
porcionar descripciones cualitativas (como «Hay una caja roja que se encuentra encima 
de una caja verde, que esta a su lado») o descripciones cuantitativas («La caja verde esta 
aproximadamente dos pies a la izquierda del cilindro azul»). Los ojos también pueden 
responder a preguntas del cerebro, como «^hay algün hueco entre la mano izquierda y 
la caja roja?». Si tiene una câmara de video, apunte a la escena y permita a los ojos mi- 
rar al visor de la câmara, pero no directamente a la escena. 

Mano izquierda y mano derecha. Una persona ejecuta el papel de cada mano. Las 
dos manos permanecen cerca una de la otra; la mano izquierda utiliza solo su mano iz¬ 
quierda, y la mano derecha utiliza solo su mano derecha. Las manos ejecutan solo co- 
mandos simples del cerebro, por ejemplo, «mano izquierda, muévete dos pulgadas hacia 
delante». No pueden ejecutar otros comandos que no sean movimientos; por ejemplo, 
«toma la caja» no es algo que la mano pueda hacer. Para evitar las trampas, puede de- 
jar a las manos llevar guantes, o que operen pinzas. Las manos deben tener los ojos ven- 
dados. La ünica capacidad de sensorizaciôn que tienen es la habilidad de decir cuândo 
su ruta es bloqueada por un objeto inamovible como una mesa o la otra mano. En estos 
casos, pueden emitir un sonido para informar al cerebro de esta dificultad. 




Fundamentos 

filosôficos 


En este capîtulo examinamos lo que significa pensar y si los artefactos podrîan 
y debenan alguna vez llegar a hacerlo. 


HIPÔTESIS 
DE LA IADÉBIL 


HIPÔTESIS 
DE LA IA FUERTE 


Como se mencionô en el Capîtulo 1, los filosofos existian mucho antes que los compu- 
tadores y llevaban tiempo intentando solucionar algunas cuestiones relacionadas con la 
IA: /como trabaja la mente? /Es posible que las mâquinas actüen de forma inteligente, 
igual que las personas? Y si asi fuera, /tendrian mentes? /Cuâles son las implicaciones 
éticas de las mâquinas inteligentes? A lo largo de los primeros 25 capitulos de este li¬ 
bre, hemos estudiado cuestiones de IA en si misma, pero en este capitulo estudiaremos 
la agenda del filôsofo. 

En primer lugar, observemos la terminologia: los filosofos definen la hipôtesis de 
la IA débil como la afirmacion de que es posible que las mâquinas actüen con inteli- 
gencia (o quizâ mejor, como si fueran inteligentes); de la misma manera, la hipôtesis 
de la IA fuerte consiste en la a fir macion de que las mâquinas si piensan realmente (opues- 
to al pensamiento simulado). 

La mayoria de los investigadores de IA dan por sentado la hipôtesis de la IA débil, 
y no se preocupan por la hipôtesis de la IA fuerte, con tal de que funcione su programa 
no les interesa si se llama simulaciôn de inteligencia o inteligencia real. Sin embargo, 
todos deberfan preocuparse por las implicaciones éticas de su trabajo. 


26.1 IA débil: <;pueden las mâquinas actuar 
con inteligencia? 


Algunos filosofos han intentado demostrar que la IA es imposible; que las mâquinas no 
tendrân la posibilidad de actuar inteligentemente. Algunos han utilizado argumentos que 
tratan de dar el alto a la investigaciôn en IA: 
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iPUEDEN PENSAR 
LAS MÂQUINAS? 


La Inteligencia Artificial abordada desde dentro del culto al computacionalismo no ten¬ 
dra ni siquiera un atisbo de fantasma de posibilidad de producir resultados duraderos... 

Es hora de desviar los esfuerzos de los investigadores en IA, y la gran cantidad de dine- 
ro disponible para su soporte, y dirigirse a caminos distintos del enfoque computacio- 
nal (Sayre, 1993). 

Obviamente, si la IA es imposible o no lo es, dependerâ de como se defina. En esencia, 
la IA consiste en la büsqueda del mejor programa agente en una arquitectura dada. Con 
esta formulacion, la IA es posible por definicion: para cualquier arquitectura digital de 
k bits de almacenamiento existirân exactamente 2 k programas agente y todo lo que ha- 
brâ que hacer para encontrar el mejor es enumerarlos y probar todos ellos. Esto podrfa 
no ser viable para una k grande, pero los filosofos abordan mas la teorfa que la prâctica. 

Nuestra definicion de IA funciona bien para el problema de encontrar un buen agen¬ 
te, dependiendo de la arquitectura. Por tanto, nos sentimos tentados a acabar esta sec- 
ciôn aqui mismo, respondiendo afirmativamente a la pregunta formulada en el titulo. Sin 
embargo, los filosofos estân interesados en el problema de comparar dos arquitecturas, 
la humana y la de la mâquina. Ademâs, ellos por tradicion han formulado la pregunta 
de la siguiente manera: «^Pueden pensar las mâquinas?» Desgraciadamente, esta 
cuestion no esta bien definida. Para ver por qué, consideremos las dos cuestiones si- 
guientes: 

• ^Pueden volar las mâquinas? 

• /Pueden nadar las mâquinas? 

La mayoria de las personas estân de acuerdo en que la respuesta a la primera cuestion 
es si, que los aviones pueden volar, pero la respuesta a la segunda es no; los barcos y los 
submarinos se mueven por el agua, pero eso no es nadar. Sin embargo, ni las preguntas 
ni sus respuestas afectan en absoluto a las vidas laborales de los ingenieros aeronâuti- 
cos ni navales, ni a las de los usuarios de sus productos. Las respuestas no tienen mu- 
cho que ver con el diseno o con las caracteristicas de los aviones o de los submarinos, 
y sin embargo si tienen que ver mucho mâs con la forma en que se han elegido utilizar 
las palabras. La palabra nadar («swim» en inglés) ha llegado a tener el significado de 
«moverse por el agua mediante el movimiento de las partes del cuerpo», mientras que 
la palabra «fly» (volar) no tiene dicha limitacion en un medio de locomociôn 1 . La posi¬ 
bilidad prâctica de las «mâquinas pensantes» lleva viviendo con nosotros durante solo 
50 ahos o asi, tiempo insuficiente para que los angloparlantes se decidan a dar un sig¬ 
nificado a la palabra «pensar». 

Alan Turing, en su famoso articulo «Computing Machinery and Intelligence» (Tu- 
ring, 1950), sugiriô que en vez de preguntar si las mâquinas pueden pensar, deberiamos 
preguntar si las mâquinas pueden aprobar un test de inteligencia conductiva (de com- 
portamiento), conocido como el Test de Turing. La pmeba se realiza para que el programa 
mantenga una conversacion durante cinco minutos (mediante mensajes escritos en linea, 
online) con un interrogador (interlocutor). Este tiene que averiguar si la conversacion se 
estâ llevando a cabo con un programa o con una persona; si el programa engana al 
interlocutor un 30 por ciento del tiempo, este pasarâ la pmeba. Turing conjeturô que, hacia 


En ruso, el équivalente de «nadar» si se aplica a los barcos. 
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el ano 2000, un computador con un almacenamiento de 10 9 unidades podrfa llegar a pro- 
gramarse lo suficientemente bien como para pasar esta prueba, pero no estaba en lo cier- 
to. Algunas personas han sido enganadas durante cinco minutas; por ejemplo, el programa 
Eliza y el chatbot en Internet llamado Mgonz han enganado a personas ignorantes que 
no se daban cuenta de que estaban hablando con un programa; el programa Alice en- 
gané a un juez en la competiciôn del Loebner Prize en el ano 2001. Sin embargo, nin- 
gün programa se ha acercado al criterio del 30 por ciento frente a jueces con conocimiento, 
y el campo en su conjunto de la IA no ha prestado mucha atenciôn a los tests de Turing. 

Turing también examiné una gran gama de posibles objeciones ante la posibilidad 
de las mâquinas inteligentes, incluyendo virtualmente aquellas que han aparecido me- 
dio siglo después de que apareciera este articulo. Examinaremos algunas de ellas. 


El argumento de incapacidad 

El «argumento de incapacidad» afirma que «una mâquina nunca puede hacer X». Como 
ejemplos de A, Turing enumera las siguientes acciones: 

Ser amable, tener recursos, ser guapo, simpâtico, tener iniciativas, tener sentido del 
humor, distinguir lo correcto de lo errôneo, cometer errores, enamorarse, disfrutar con 
las fresas con nata, hacer que otra persona también se enamore, aprender de la experiencia, 
utilizar palabras de forma adecuada, ser el tema de su propio pensamiento, tener tanta 
diversidad de comportamientos como el hombre, hacer algo realmente nuevo. 

Turing tuvo que utilizar su intuiciôn para adivinar aquello que en un futuro séria posi- 
ble, pero nosotros tenemos el privilegio de poder mirar hacia atrâs y ver qué es lo que 
ya pueden hacer los computadores. Es innegable que los computadores actualmente ha- 
cen muchas cosas que anteriormente eran solo del dominio humano. Los programas jue- 
gan a la ajedrez, a las damas y a otros juegos, inspeccionan piezas de las llneas de 
producciôn, comprueban la ortografla en los documentos de los procesadores de texto, 
conducen coches y helicôpteros, diagnostican enfermedades, y hacen otros cientos de 
tareas tan bien o mejor que los hombres. Los computadores han hecho pequenos pero 
significativos descubrimientos, en Astronomla, Matemâticas, Qulmica, Mineralogla, 
Biologla, Informâtica y otros campos que necesitan rendimiento a nivel de experto. 

Debido a lo que conocemos actualmente acerca de los computadores, no es sor- 
prendente que sean también buenas en problemas combinatorios taies como los del jue- 
go del ajedrez. Sin embargo, los algoritmos también funcionan a nivel humano en tareas 
que aparentemente se relacionan con el juicio humano, o como apunta Turing, «apren¬ 
der a partir de la experiencia» y la capacidad de «distinguir lo que es correcto de lo in- 
correcto». Ya en el ano 1955, Paul Meehl (véase también Grove y Meehl, 1996) estudiô 
los procesos de la toma de decisiones de expertos formados en tareas subjetivas como 
predecir el éxito de un alumno en un programa de formaciôn, o la reincidencia de un de- 
lincuente. De 20 estudios que Meehl examiné, en 19 de ellos encontrô que sencillos al¬ 
goritmos de aprendizaje estadlstico (tal como la regresiôn lineal y Bayes simple) predicen 
mejor que los expertos. Desde el ano 1999, el Educational Testing Service (Servicio de 
Exâmenes Educativo) ha utilizado un programa automatizado para calificar millones de 
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preguntas de redacciones en el examen GMAT. Este programa concuerda con los exa- 
minadores en un 97 por ciento, aproximadamente al mismo nivel de concordancia en¬ 
tre dos personas (Burstein et al., 2001). 

Es évidente que los computadores pueden hacer muchas cosas tan bien o mejor que 
el ser humano, incluso cosas que las personas creen que requieren mucha intuition y en- 
tendimiento humano. Por supuesto, esto no significa que los computadores utilicen la 
intuicion y el entendimiento para realizar estas tareas, las cuales no forman parte del 
comportamiento, y afrontamos dichas cuestiones en otro sitio, sino que la cuestiôn es 
que la primera conjetura sobre los procesos mentales que se requieren para producir un 
comportamiento dado suele ser equivocada. También es cierto, desde luego, que exis- 
ten todavia muchas tareas en donde los computadores no sobresalen (por no decirlo mas 
bruscamente), incluida la tarea de Turing de mantener una conversation abierta. 

La objeciôn matemâtica 

Es bien conocido, a través de los trabajos de Turing (1936) y Gôdel (1931), que ciertas 
cuestiones matemâticas, en principio, no pueden ser respondidas por sistemas formates 
concretos. El teorema de la incompletitud de Gôdel (véase el Apartado 9.5) es el ejem- 
plo mas conocido en este respecto. En resumen, para cualquier sistema axiomâtico for¬ 
mai F lo suficientemente potente como para hacer aritmética, es posible construir una 
«sentencia Gôdel» G(F) con las propiedades siguientes: 

• G(F) es una sentencia de F, pero no se puede probar dentro de F. 

• Si F es consistente, enfonces G(F) es verdadero. 

Filôsofos como J. R. Lucas (1961) han afirmado que este teorema demuestra que las mâ- 
quinas son mentalmente inferiores a los hombres, porque las mâquinas son sistemas for- 
males limitados por el teorema de la incompletitud, es decir no pueden establecer la 
verdad de su propia sentencia Gôdel, mientras que los hombres no tienen dicha limita¬ 
tion. Esta afirmaciôn ha provocado mucha controversia durante décadas, generando mu- 
chos libros entre los que se incluyen dos libres del matemâtico Sir Roger Penrose (1989, 
1994) quien repite esta afirmaciôn con nuevos giros (como por ejemplo, la hipôtesis de 
que los hombres son diferentes porque sus cerebros operan por la gravedad cuântica). 
Examinemos solamente très de los problemas de esta afirmaciôn. 

En primer lugar, el teorema de la incompletitud de Gôdel se aplica solo a sistemas 
formates que son lo suficientemente potentes como para realizar aritmética. Aqui se in¬ 
cluyen las mâquinas Turing, y la afirmaciôn de Lucas en parte se basa en la afirmaciôn 
de que los computadores son mâquinas de Turing. Esta es una buena aproximaciôn, pero 
no es del todo verdadera. Aunque los computadores son finitos, las mâquinas de Turing 
son infinitas, y cualquier computador por tanto se puede describir como un sistema (muy 
grande) en la lôgica proposicional, la cual no estâ sujeta al teorema de incompletitud de 
Gôdel. 

En segundo lugar, un agente no deberfa avergonzarse de no poder establecer la ver¬ 
dad de una sentencia aunque otros agentes si puedan. Consideremos la sentencia siguiente 

J. R. Lucas no puede consecuentemente afirmar que esta sentencia es verdadera. 
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Si Lucas afirmara esta sentencia, entonces se estaria contradiciendo a si mismo, por tan- 
to Lucas no puede afirmarla consistentemente, y de aqul que esta sentencia sea verda- 
dera. (La sentencia no puede ser falsa, porque si lo fuera Lucas entonces no podria 
afirmarla consecuentemente, por tanto séria verdadera.) As! pues, hemos demostrado que 
existe una sentencia que Lucas no puede afirmar consecuentemente mientras que otras 
personas (y mâquinas) si pueden. Sin embargo, esto no hace que cambiemos de idea res¬ 
pecta a Lucas. Por dar otro ejemplo, ninguna persona podria calcular la suma de 10 bi- 
llones de nümeros de 10 digitos en su vida, en cambio un computador podria hacerlo en 
segundos. Sin embargo, no vemos esto como una limitaciôn fundamental en la habili- 
dad de pensar del hombre. Durante miles de anos los hombres se han comportado de for¬ 
ma inteligente antes de que se inventaran las mâquinas, de manera que no es improbable 
que el razonamiento matemâtico no tenga mas que una funciôn secundaria en lo que im- 
plica ser inteligente. 

En tercer lugar, y de manera mucho mas importante, aunque reconozcamos que los 
computadores tienen limitaciones sobre lo que pueden demostrar, no existen evidencias 
de que los hombres sean inmunes ante esas limitaciones. Es realmente sencillo demos¬ 
trar con rigor que un sistema formai no puede hacer X, y afirmar entonces que los hom¬ 
bres pueden hacer X utilizando sus propios métodos informâtes, sin dar ninguna evidencia 
de esta afirmaciôn. En efecto, es imposible demostrar que los hombres no estân sujetos 
al teorema de incompletitud de Gôdel, porque cualquier prueba rigurosa contendria una 
formalizaciôn del talento humano declarado como no formalizable. De manera que nos 
quedamos con el llamamiento a la intuiciôn de que los hombres, de alguna forma, pue¬ 
den realizar hazanas superhumanas de comprensiôn matemâtica. Esta atracciôn se ex- 
presa con argumentas como «debemos asumir nuestra propia consistencia, si el 
pensamiento puede ser posible» (Lucas, 1976). Sin embargo ciertamente se sabe que los 
hombres son inconsistentes. Esto es absolutamente verdadero para el razonamiento dia- 
rio, pero también es verdadero para un pensamiento matemâtico cuidadoso. Un ejem¬ 
plo muy conocido es el problema del mapa de cuatro colores. En 1879, Alfred Kempe 
publicô una prueba que tuvo una gran acogida y contribuyô a que le eligieran Fellow de 
Royal Society. Sin embargo, en 1890, Percy Heawood apuntô que existia un error y el 
teorema quedô sin demostrar hasta el ano 1977. 


El argumento de la informalidad 

Una de las criticas mâs persistentes e influyentes de la IA como empresa la realizô Tu- 
ring mediante su «argumento de la informalidad del comportamiento». En esencia, esta 
afirmaciôn consiste en que el comportamiento humano es demasiado complejo para po- 
der captarse mediante un simple juego de réglas y que debido a que los computadores 
no pueden nada mâs que seguir un conjunto (juego) de réglas, no pueden generar un com¬ 
portamiento tan inteligente como el de los hombres. En IA la incapacidad de capturar- 
lo todo en un conjunto de réglas lôgicas se denomina problema de cualificaciôn (véase 
CapitulolO). 

El filôsofo que ha propuesto principalmente este punto de vista ha sido Hubert 
Dreyfus, quien élaboré una sérié de criticas influyentes a la Inteligencia Artificial: iQué 
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es lo que no pueden hacer los computadores? (1972), ; Que es lo no pueden hacer to- 
davîa los computadores? (1992). Junto con su hermano elaboro también Mind Over Ma¬ 
chine (1986). 

La postura que critican se vino a llamar «Good Old-Fashioned AI» (IA muy anti- 
cuada), GOFAi, término que empezô a utilizar Haugeland (1985). Se supone que este tér- 
mino afirma que todo comportamiento inteligente puede ser capturado por un sistema 
que razona lôgicamente a partir de un conjunto de hechos y réglas, los cuales describen 
el dominio. Por tanto, se corresponde con el agente lôgico mas simple que se describiô 
en el Capftulo7. Dreyfus esta en lo cierto cuando dice que los agentes son vulnérables 
al problema de la cualificaciôn. Como se vio en el Capftulo 13, los sistemas de razona- 
miento probabillstico son mas adecuados para dominios abiertos. La critica de Dreyfus 
por lo tanto no va en contra de los computadores per se, sino en contra de una forma en 
particular de programarlos. Sin embargo, séria razonable suponer que un libro llamado 
Lo que no pueden hacer los sistemas lôgicos de primer orden basados en réglas sin apren- 
der podria haber tenido menos impacto. 

Bajo el punto de vista de Dreyfus, la pericia del hombre incluye el conocimiento 
de algunas réglas, pero solamente como un «contexto hollstico» o «conocimiento base» 
(background) dentro del que operan los hombres. Proporciona como ejemplo el com¬ 
portamiento social adecuado al dar o recibir regalos: «Normalmente se responde sim- 
plemente en las circunstancias adecuadas y dando el regalo adecuado». Al parecer hay 
que «tener un sentido directo de como hay que hacer las cosas y qué esperar». Esta mis- 
ma afirmaciôn se realiza en el contexto del juego del ajedrez: «Un maestro de ajedrez 
tendria que averiguar simplemente qué hacer, pero un buen maestro simplemente 
observa el tablera como exigiendo un cierto movimiento... y obtiene la respuesta 
apropiada râpidamente en su cabeza». Es cierto que gran parte de los procesos del pen- 
samiento de una persona que da un regalo o de un gran maestro en ajedrez se llevan a 
cabo a un nivel que no esta abierto a la introspeccion por la mente consciente. Sin 
embargo, esto no significa que no existan los procesos de pensamiento. Una cuestion 
importante que Dreyfus no responde es como aparece el movimiento de ajedrez 
adecuado en la cabeza del gran maestro. Esto nos lleva a pensar en un comentario de 
Dennett (1984): 

Es como si los filôsofos se fueran a proclamai' expertos en explicar los métodos de los 
magos en el escenario, y enfonces cuando preguntamos como hace el truco del serrucho 
para partir en dos a una mujer, ellos dan la explicaciôn de que es totalmente évidente: el 
mago no parte en dos a la mujer con la sierra, simplemente parece que lo hace. «Pero, 
/U'onio lo hace?», y los filôsofos responden «No es de nuestra incumbencia». 

Dreyfus y Dreyfus (1986) proponen un proceso de adquisicion de pericia en cinco eta- 
pas, comenzando con un procesamiento basado en réglas (del tipo propuesto en GOFAi) 
y terminando con la habilidad de seleccionar las respuestas correctas instantâneamen- 
te. Al realizar esta propuesta, Dreyfus y Dreyfus pasan en efecto de ser criticos a la IA 
a ser teoricos de IA, ya que proponen una arquitectura de redes neurales (neuronales) 
organizadas en una biblioteca de casos extensa, pero senalan algunos problemas. Afor- 
tunadamente, se han abordado todos sus problemas, algunos con éxito parcial y otros 
con éxito total. Entre estos problemas se incluyen los siguientes: 
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1. No se puede lograr una generalizaciôn buena de ejemplos sin un conocimiento 
bâsico. AfiiTnan que no se sabe cômo incorporar el conocimiento bâsico en el 
proceso de aprendizaje de las redes neuronales. De hecho, en el Capitulo 19 
vimos que existen técnicas para utilizar el conocimiento anterior en los algorit- 
mos de aprendizaje. Sin embargo, esas técnicas dependen de la disponibilidad 
previa de conocimiento de forma explicita en los algoritmos de aprendizaje, algo 
que Dreyfus y Dreyfus niegan vigorosamente. Bajo nuestro punto de vista, esta 
es una buena razon para realizar un rediseno serio de los modelos actuales del 
procesamiento neuronal de forma que puedan sacar provecho del conocimien¬ 
to aprendido anteriormente como lo hacen otros algoritmos de aprendizaje. 

2. El aprendizaje de redes neuronales es una forma de aprendizaje supervisado 
(véase Capitulo 18), que requiere la identification anterior de las entradas rele¬ 
vantes y las salidas correctas. Por tanto, afirman que no puede funcionar auto- 
nomamente sin la ayuda de un entrenador humano. De hecho, el aprendizaje sin 
un profesor se puede conseguir mediante un aprendizaje no supervisado (Ca¬ 
pitulo 20) y un aprendizaje de refuerzo (Capitulo 21). 

3. Los algoritmos de aprendizaje no funcionan bien con muchas funciones, si 
seleccionamos un subgrupo de éstas, «no existe una forma conocida de ahadir 
funciones nuevas, si el conjunto actual demuestra ser inadecuado para tener en 
cuenta los hechos aprendidos». De hecho, métodos nuevos taies como las mâ- 
quinas vectoriales de soporte utilizan muy bien conjuntos grandes de funciones. 
Como vimos en el Capitulo 19, también existen formas importantes de generar 
funciones nuevas, aunque requiera mas trabajo. 

4. El cerebro es capaz de dirigir sus sensores para buscar la informaciôn relevante 
y procesarla para extraer aspectos relevantes para la situation actual. Sin embargo, 
afirman que «Actualmente, los detalles de este mecanismo ni se entienden y ni 
siquiera se hipotetizan para guiar la investigation en la IA». De hecho, el cam- 
po de la vision activa, respaldado por la teoria del valor de la information 
(Capitulo 16) tiene que ver exactamente con el problema de dirigir los senso¬ 
res, y algunos robots ya han incorporado los resultados teôricos obtenidos. 

En resumen, muchos de los temas que ha tratado Dreyfus, el conocimiento del sentido 
comün bâsico, el problema de la cualificacion, la incertidumbre, aprendizaje, formas com- 
piladas de la toma de decisiones, la importancia de considerar agentes situados y no mo- 
tores de interferencia incoipôreos, por ahora se han incorporado en el diseho estândar 
de agentes inteligentes. Bajo nuestro punto de vista, esta es una evidencia del progreso 
de la IA, y no de su imposibilidad. 


26.2 IA fuerte: épueden las mâquinas pensar 
de verdad? 


Muchos filosofos han afirmado que una mâquina que pasa el Test de Turing no quiere 
decir que esté realmente pensando, séria solamente una simulation de la action de 
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pensar. De nuevo esta objecion fue prevista por Turing, y cita unas palabras del Profe- 
sor Geoffrey Jefferson (1949): 

Hasta que una mâquina pueda escribir un soneto o componer un concierto porque sien- 
ta los pensamientos y las emociones, y no porque haya una lluvia de simbolos, podria 
reconocer que la mâquina iguala al cerebro, es decir, no solo escribirlo sino que sepa que 
lo ha hecho. 

Esto es lo que Turing llama el argumento de la consciencia, la mâquina tiene que ser 
consciente de sus propias acciones y estados mentales. Aunque la consciencia sea un tema 
importante, el punto de vista clave de Jefferson se relaciona realmente con la fenome- 
nologi'a, o el estudio de la experiencia directa, es decir, la mâquina tiene que sentir emo¬ 
ciones realmente. Otros se centran en la intencionalidad, esto es, en la cuestiôn de si 
las creencias, deseos y otras representaciones supuestas de la mâquina son de verdad algo 
que pertenece al mundo real. 

La respuesta de Turing a esta objecion es interesante. Podria haber presentado 
razones para demostrar que las mâquinas pueden de hecho ser conscientes (o tener fe- 
nomenologia, o tener intenciones). En cambio, Turing mantiene que la cuestiôn no estâ 
bien definida al decir, «^Pueden pensar las mâquinas?» Ademâs, por qué deberiamos 
insistir en un estândar mâs alto para las mâquinas que el usado para los humanos. Des- 
pués de todo, en la vida ordinaria no tenemos nunca una evidencia directa sobre los 
estados mentales internos de otras personas. No obstante, Turing dice que «En vez de 
argumentar constantemente sobre este punto de vista, es usual mantener la convenciôn 
educada de que todos pensamos». 

Turing argumenta que Jefferson estaria dispuesto a ampliar la convenciôn educada 
a las maquinas si al menos tuviera experiencia con las que actüan de forma inteligente, 
y cita el diâlogo siguiente el cual ha llegado a formar una parte muy significativa de la 
tradiciôn oral de la IA y que debemos incluir: 

hombre: En la primera linea de tu soneto que dice «te compararé con un dia de verano», 

£no séria mejor decir «un dia de primavera»? 
mâquina: No rimaria. 

hombre: Y qué tal un «dia de inviemo». Este si qué rimaria bien. 
mâquina: Si, pero nadie quiere una comparaciôn con un dia de inviemo. 
hombre: ^Podrias decir que Mr. Pickwick te recuerda a las navidades? 
mâquina: En cierto modo, si. 

hombre: Sin embargo, las navidades representan un dia de invierno, y no creo que a Mr. 
Pickwick le importara la comparaciôn. 

mâquina: No, creo que estés hablando en serio. Por un dia de invierno se entiende un ti- 
pico dia de invierno, y no un dia especial de Navidad. 

Turing reconoce que la cuestiôn de la conciencia (consciencia) es dificil, pero niega que 
sea relevante para la prâctica de la IA: «No quiero dar la impresiôn de que pienso que 
no hay misterio en torno a la conciencia... Sin embargo no creo que estos misterios ten- 
gan necesariamente que resolverse antes de la respuesta a la cuestiôn que estamos tra- 
tando en este trabajo». Coincidimos con Turing en que nos interesa crear programas que 
se comporten de forma inteligente y no en si alguien los déclara reales o simulados. Por 
otro lado, muchos filôsofos estân especialmente interesados en esta cuestiôn. Como 
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ayuda para entenderlo tendremos en cuenta la cuestiôn de si otros artefactos se consi- 
deran reales. 

En 1848, Frederick Wôhler sintetizô urea artificial por primera vez. Este fue un hecho 
importante porque probô que la quimica orgânica y la inorgânica se podian unir, cues¬ 
tiôn discutida muy fuertemente. Una vez que se consiguiô la sintesis, los quimicos re- 
conocieron que la urea artificial era urea, porque ténia todas las propiedades fisicas 
adecuadas. Igualmente, los édulcorantes artificiales son innegablemente édulcorantes, 
y la inseminaciôn artificial (la otra IA) es innegablemente inseminaciôn. Por otro lado, 
las flores artificiales no son flores, y Daniel Dennett senala que el vino artificial Châte¬ 
au Latour no séria vino Chateau Latour, aunque no se pudiera distinguir quimicamente, 
simplemente porque no se fabricô en el lugar adecuado ni de la forma adecuada. Ni 
tampoco un Picasso artificial séria un Picasso, independientemente del aspecto que ten- 
ga el cuadro. 

Podemos concluir diciendo que en algunos casos el comportamiento de un artefac- 
to es importante, aunque en otros sea el pedigri del artefacto lo que importa. Lo impor¬ 
tante en cada caso parece ser una cuestiôn de convenciôn. Sin embargo para las mentes 
artificiales, no existe una convenciôn, y tenemos que depender de las intuiciones. El 
filôsofo John Searle (1980) tiene una convenciôn muy fuerte: 

Nadie piensa que la simulacion por computador de una tormenta nos va a mojar... Y, /eual 

es la razon de que cualquier persona en su sano juicio suponga que la simulacion por com¬ 
putador de los procesos mentales tendrian realmente procesos mentales? (pp. 37-38.) 

Aunque sea fâcil reconocer que las simulaciones por computador de las tormentas no 
nos van a mojar, no esta claro cômo aplicar esta analogia a las simulaciones por com¬ 
putador de los procesos mentales. Después de todo, la simulacion de una tormenta en 
Hollywood utilizando aspersores y mâquinas de viento si que moja a los actores. La ma- 
yoria de las personas se sienten cômodas diciendo que la simulacion por computador de 
la suma es la suma, y la de un juego de ajedrez un juego de ajedrez. /.Son los procesos 
mentales parecidos a las tormentas, o son mas parecidos a la suma o al ajedrez, o se pa- 
recen al Chateau Latour y al Picasso..., o a la urea? Todo dépende de la teoria de los es- 
tados y los procesos mentales. 

La teoria del funcionalismo dice que un estado mental es cualquier condiciôn causal 
inmediata entre la entrada y la salida. Bajo la teoria funcionalista, dos sistemas con 
procesos causales isomôrficos tendrian los mismos estados mentales. Por tanto, un 
programa informâtico podria tener los mismos estados mentales que una persona. Desde 
luego, todavia no hemos dicho lo que significa realmente «isomôrficos», pero la supo- 
siciôn es que existe algün nivel de abstracciôn por debajo del cual no importa una 
implementaciôn especifica; siempre que los procesos sean isomôrficos hasta este nivel, 
tendrân lugar los mismos estados mentales. 

En contraste, la teoria del naturalismo biolôgico dice que los estados mentales son 
caracteristicas emergentes de alto nivel originadas por procesos neurolôgicos de bajo 
nivel en las neuronas, y lo que importa son las propiedades (no especificadas) de las 
neuronas. As! pues, los estados mentales no se pueden duplicar justo en la base de algün 
programa que tiene la misma estructura funcional con el mismo comportamiento de en¬ 
trada y salida; necesitariamos que el programa se ejecutara en una arquitectura con la 
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misma potencia causal que las neuronas. La teoria no dice por qué las neuronas tienen 
esta potencia causal, ni tampoco qué otras instanciaciones fisicas podrfan tenerla o no. 

Para investigar estos dos puntos de vista examinaremos uno de los problemas mas 
antiguos de la filosofia de la mente, y retomaremos très experimentos pensados. 


El problema de mente-cuerpo 

El problema mente-cuerpo cuestiona cômo se relacionan los estados y los procesos men¬ 
tales con los estados y los procesos (especificamente del cerebro) del cuerpo. Como si 
no fuera bastante difïcil, vamos a generalizar el problema como un problema de «ar- 
quitectura-mente», para que nos permita hablar sobre la posibilidad de que las mâqui- 
nas tengan mentes. 

/Por qué es un problema el problema mente-cuerpo? Para la primera dificultad nos 
remontaremos a René Descartes, quien abordo el tema de como un aima inmortal inter- 
actüa con un cuerpo mortal, y concluyo diciendo que el aima y el cuerpo son dos tipos 
de cosas diferentes, una teoria dualista. La teoria monista, frecuentemente llamada ma- 
terialismo, mantiene que no existen cosas taies como aimas inmateriales, sino solo ob- 
jetos materiales. Como consecuencia, los estados mentales, taies como sentir dolor, 
saber que alguien esta montando a caballo, o creer que la capital de Austria es Viena, 
son estados del cerebro. John Searle, de forma concisa, résumé esta idea con el slogan, 
«Los cerebvos producen las mentes». 

El materialista se debe enfrentar por lo menos con dos obstâculos serios. El primer 
problema es el de la libertad de elecciôn: /Como puede ser que una mente puramente 
fîsica, cuyas transformaciones estân regidas por las leyes de la fisica, conserve todavia 
el libre albedrio? La mayoria de los filôsofos consideran que este problema necesita una 
reconstituciôn cuidadosa de nuestra nocion ingenua de libertad de elecciôn, en vez de 
presentar una amenaza para el materialismo. El segundo problema tiene que ver con el 
tema general de la conciencia (y cuestiones de entendimiento y de autoconocimiento 
relacionadas, aunque no idénticas). Para simplificar, por qué se siente algo cuando se tie¬ 
nen ciertos estados cerebrales, mientras que probablemente no se siente nada al tener otros 
estados fisicos (por ejemplo, al ser una roca). 

Para empezar a responder estas cuestiones, necesitamos formas de hablar sobre los 
estados del cerebro a niveles mas abstractos que las configuraciones especificas de to- 
dos los âtomos del cerebro de una persona en particular en un momento concreto. Por 
ejemplo, cuando pienso en la capital de Austria, mi cerebro sufre miriadas de cambios 
diminutos de un picosegundo al otro, pero estos no constituyen un cambio cualitativo 
en el estado del cerebro. Para tenerlo en cuenta, necesitamos una nocion de tipos de es¬ 
tados del cerebro bajo la cual podamos juzgar si dos estados del cerebro pertenecen al 
mismo tipo o a un tipo diferente. Existen diferentes opiniones sobre lo que quiere decir 
tipo en este caso. Casi todo el mundo créé que si tomamos un cerebro y sustituimos los 
âtomos de carbono por un nuevo conjunto de âtomos de carbono 2 , el estado mental no 


2 Quizâs incluso los âtomos de un isotopo de carbon diferente, como se hace algunas veces en los experi¬ 
mentos de exploraciôn cérébral. 
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se verâ afectado. Esto es bueno porque los cerebros reales estân sustituyendo continua- 
mente sus âtomos mediante procesos metabôlicos, y sin embargo esto en si no parece 
causar perturbaciones mentales importantes. 

Ahora vamos a examinar una clase en particular de estado mental: las actitudes 
proposicionales (tratadas por primera vez en el Capitulo 10), conocidas también como 
estados intencionales. Estos son estados taies como creer, conocer, desear, temer, y otros 
mas que se relacionan con algunos aspectos del mundo exterior. Por ejemplo, la creen- 
cia de que Viena es la capital de Austria es una creencia sobre una ciudad en particular 
y su estado. Nos vamos a cuestionar si es posible que los computadores tengan estados 
intencionales que nos ayuden a entender como caracterizar dichos estados. Por ejemplo, 
se podria decir que el estado mental de desear - una hamburguesa difiere del estado de 
desear una pizza porque en el mundo real una hamburguesa y una pizza son cosas dife- 
rentes. Es decir, los estados intencionales tienen una conexiôn necesaria con otros 
objetos del mundo externo. Por otro lado, anteriormente, hemos argumentado que los 
estados mentales son estados del cerebro, y de aqur que los estados mentales de identi- 
dad o no-identidad se deberfan determinar permaneciendo completamente «dentro de la 
cabeza», sin hacer referencia al mundo real. Para examinar este dilema retomaremos el 
experimento del pensamiento que intenta separar a los estados intencionales de sus ob¬ 
jetos externos. 


El experimento del «cerebro en una cubeta» 

Imaginese que al nacer le extraen el cerebro de su cuerpo y lo colocan en una cubeta con 
una ingenieria maravillosa. Esta cubeta mantiene su cerebro y le permite crecer y 
desarrollarse. Al mismo tiempo, su cerebro recibe unas seriales electronicas de un 
simulador informâtico que pertenece a un mundo totalmente ficticio, y las senales mo- 
toras de su cerebro son interceptadas y utilizadas para modificar la simulacion cuando 
sea adccuado ’. A continuacion, el estado del cerebro podria tener el estado mental Mue¬ 
ra Por (Yo, Hamburguesa) aunque no tenga un cuerpo con el que sentir hambre ni senti- 
do del gusto para experimentarlo, y puede que tampoco haya hamburguesas en el mundo 
real. En ese caso, / ; seria el mismo estado mental que el del cerebro en un cuerpo? 

Una forma de resolver el dilema es decir que el contenido de los estados mentales 
puede ser interpretado desde dos puntos de vista diferentes. La vision del «contenido 
extenso» interpréta el dilema desde el punto de vista de un observador omnisciente desde 
fuera con acceso a la situaciôn compléta, y que puede distinguir las diferencias del mun¬ 
do. De esta manera, bajo el contenido extenso, las ideas del cerebro en una cubeta son 
diferentes de las de una persona «normal». El contenido estrecho solo tiene en cuenta 
el punto de vista subjetivo interno, y bajo este punto de vista todas las creencias serian 
las mismas. 

El pensamiento de que una hamburguesa es maravillosa tiene una cierta naturaleza 
intrinseca, esto es que existe algo que es como tener esa creencia. Ahora vamos a entrar 
en la esfera de qualia, o de las experiencias intrinsecas (de la palabra latina que signi- 


Esta situaciôn puede resultar familiar para los que hayan visto la pelicula de 1999, The Matrix. 


3 
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fica aproximadamente «taies cosas»). Suponga que mediante algün accidente del cableado 
retinal o neuronal la persona X expérimenta en rojo el color que la persona Y percibe como 
verde, y viceversa. Entonces cuando ambas vean las luces del semâforo actuarân de la 
misma manera, pero la experiencia que tienen sera de alguna manera diferente. Ambas 
pueden reconocer que el nombre de su experiencia es «la luz es roja», pero las expe- 
riencias se sienten de diferente manera. No esta claro si eso significa que son los mis- 
mos estados mentales o que son estados mentales diferentes. 

A continuation retomaremos otro experimento del pensamiento que aborda la cuestiôn 
de si los objetos fisicos diferentes a las neuronas humanas pueden tener estados mentales. 

El experimento de la prôtesis cérébral 

El experimento de la prôtesis cérébral fue introducido por Clark Glymour a mediados 
de los anos 70, y retocado posteriormente por John Searle (1980), aunque se asocia mas 
comünmente al trabajo de Hans Moravec (1988). Trata de lo siguiente: suponga que la 
neurofisiologia ha evolucionado hasta tal punto que el comportamiento y las conexio- 
nes de entrada y salida de todas las neuronas del cerebro humano se entienden perfec- 
tamente. Ademâs, suponga que podemos construir mecanismos electrônicos 
microscôpicos que imitan este comportamiento y que pueden interconectarse con el te- 
jido neuronal. Y finalmente, suponga que una técnica quirürgica milagrosa puede sus- 
tituir las neuronas individuales con los mecanismos electrônicos sin interrumpir el 
funcionamiento del cerebro por completo. El experimento consiste en sustituir gradual- 
mente todas las neuronas de la cabeza de alguien con mecanismos electrônicos y a con¬ 
tinuation invertir el proceso para retornar al sujeto a su estado biolôgico normal. 

Nos preocupa tanto el comportamiento externo como la experiencia interna del su¬ 
jeto, durante y después de la operation. Por définition del experimento, el comporta¬ 
miento extemo del sujeto no debe sufrir ningün cambio en comparaciôn con lo que se 
observarfa si la operation no se llevase a cabo 4 . Ahora bien, aunque la presencia o au- 
sencia de consciencia no la pueda asegurar fâcilmente un tercero, el sujeto del experi¬ 
mento deberia por lo menos poder registrar cualquier cambio en su propia experiencia 
consciente. Aparentemente existe una confrontation directa de intuiciones de lo que po- 
drfa llegar a ocurrir. Moravec, un investigador y funcionalista en robôtica, esta conven- 
cido de que su consciencia no se veria afectada. Searle, un filôsofo y naturalista biôlogo, 
también esta convencido de que la consciencia desapareceria: 

Ante nuestro asombro encontramos que en efecto estamos perdiendo el control del com¬ 
portamiento extemo. Encontramos, por ejemplo, que cuando los doctores comprueban 
nuestra vision, dicen: «Hemos puesto un objeto rojo delante de usted; por favor, diganos 
lo que ve». Desearemos responder gritando «No puedo ver nada. Me he quedado abso- 
lutamente ciego». Sin embargo, hablaremos y diremos sin ningün control por nuestra par¬ 
te: «Observo que hay un objeto rojo delante de mi»... Nuestra experiencia consciente se 
va reduciendo poco a poco a la nada, mientras que se puede observar externamente que 
nuestro comportamiento es el mismo. (Searle, 1992) 


4 Imaginemos que utilizamos un sujeto idéntico de «control» que sufre una opération placebo para poder 
comparer los dos comportamientos. 
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Sin embargo, podemos hacer algo mas que argumentar, a partir de la intuiciôn. En 
primer lugar, hay que destacar que para que el comportamiento extemo siga siendo el 
mismo, mientras que el individuo se va sumiendo gradualmente en la inconsciencia, debe 
darse el caso de que la propia voluntad del sujeto se éliminé instantâneamente y total- 
mente; de otra manera, la reducciôn del conocimiento se verra reflejada en el compor¬ 
tamiento externo, con palabras taies como «Ayuda, mi conocimiento se esta reduciendo», 
u otras palabras con ese mismo efecto. Esta eliminaciôn instantânea de la propia voluntad 
como resultado de la sustituciôn graduai de neuronas una a una parece ser una afirma- 
ciôn improbable. 

En segundo lugar, examinemos qué ocurre si formulamos al sujeto cuestiones rela- 
cionadas con su experiencia consciente durante el perrodo en donde no existen neuro¬ 
nas reales. Por las condiciones del experimento, obtendremos respuestas del tipo, «Me 
encuentro bien. Debo decir que estoy algo sorprendido porque crela en el argumento de 
Searle». O de lo contrario, podrfamos atizar al sujeto con un baston acabado en punta y 
observariamos la respuesta, «jAy, como duele!». Ahora bien, durante el curso normal 
de sucesos, el escéptico puede desechar taies salidas de programas de IA taies como sim¬ 
ples artimanas. Ciertamente, es bastante fâcil utilizar una régla tal como «Si el sensor 
12 identifica “Alto” entonces la salida sera “Ay”». Sin embargo lo importante es que, de- 
bido a que hemos duplicado las propiedades funcionales de un cerebro humano normal, 
supondremos que el cerebro electronico no contiene dichas artimanas. Debemos enton¬ 
ces tener una explicacion de las manifestaciones de la consciencia producidas por el ce¬ 
rebro electronico que atane solo a las propiedades funcionales de las neuronas. Y ademâs, 
esta explicacion debe aplicarse también al cerebro real, el cual tiene las mismas pro¬ 
piedades funcionales. Parece entonces que existen solo dos conclusiones posibles: 

1. Los mecanismos causales de la consciencia que generan estas clases de salidas 
en los cerebros normales todavra estân funcionando en la version electrônica, 
que, por tanto, es consciente. 

2. Los sucesos mentales conscientes en el cerebro normal no tienen conexiôn 
causal con el comportamiento, y quedan fuera del cerebro electronico, que no 
es, por tanto, consciente. 

Aunque no podamos descartar la segunda posibilidad, esto reduce la consciencia a lo que 
epifenomenal los filôsofos llaman roi epifenomenal, algo que ocurre, pero que no déjà pistas como si 

lo fuera en el mundo observable. Ademâs, si la consciencia es en efecto epifenomenal, en¬ 
tonces el cerebro debe tener un segundo mecanismo inconsciente responsable del «Ay». 

En tercer lugar, examinemos la situaciôn en que la operaciôn se ha invertido y el su¬ 
jeto tiene un cerebro normal. Una vez mas, el comportamiento externo del sujeto debe 
ser, por defmiciôn, como si la operaciôn no hubiera ocurrido. En particular, deberramos 
poder preguntar, «/Como estaba durante la operaciôn?, /recuerda el baston acabado en 
punta?». El sujeto debe tener recuerdos precisos de la naturaleza real de sus experien- 
cias conscientes, incluyendo las qualia, a pesar del hecho de que segün Searle no ha habido 
taies experiencias. 

Searle podrra responder que no hemos defmido el experimento adecuadamente. Por 
ejemplo, si las neuronas reales quedan suspendidas entre el momento que se extraen y 
el tiempo en que se reemplazan en el cerebro, por supuesto entonces no «recordarân» 
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las experiencias durante la operacion. Para tratar esta eventualidad, necesitamos asegu- 
rarnos de que el estado de las neuronas se actualiza para reflejar el estado interno de las 
neuronas artificiales que estân reemplazando. Si los supuestos aspectos «no funciona- 
les» de las neuronas reales dan como resultado enfonces un comportamiento funcional- 
mente diferente del que se observa con las neuronas artificiales todavia en su lugar, 
tenemos un reductio ad absurdum simple, debido a que eso significaria que las neuro¬ 
nas artificiales no son équivalentes funcionalmente a las neuronas reales. (Véase el 
Ejercicio 26.3 para una posible refutaciôn de este argumento.) 

Patricia Churchland (1986) senala que los argumentos funcionalistas que operan a 
nivel de neurona también pueden funcionar al nivel de cualquier unidad funcional mas 
grande, un grupo de neuronas, un môdulo mental, un lôbulo, una hemisfera, o todo el 
cerebro. Eso significa que si se acepta la nociôn de que el experimento de protesis del 
cerebro muestra que el cerebro de sustituciôn es consciente, deberfamos también creer 
que la consciencia se mantiene cuando el cerebro entero se sustituye por un circuito que 
hace corresponder la entrada con la salida mediante una tabla de büsqueda. Esto es des¬ 
concertante para muchas personas (incluyendo al mismo Turing), que tienen la intuiciôn 
de que las tablas de büsqueda no son conscientes, o por lo menos, que las experiencias 
concientes generadas durante la büsqueda en tabla no son las mismas que las generadas 
durante la operacion de un sistema que se podria describir (incluso en un sentido com- 
putacional ingenuo) como accediendo y generando ideas, introspecciones, metas, etc. 
Esto podria sugerir que el experimento de la protesis del cerebro no puede utilizar un 
reemplazo de todo el cerebro en conjunto, si ha de ser efectivo al guiar las intuiciones, 
pero esto no significa que se debe utilizar el reemplazo de un âtomo cada vez, tal como 
Searle nos hace creer. 


La habitaciôn china 

Nuestro experimento final del pensamiento es quizâs el mas famoso de todos. Este se 
debe a John Searle (1980), quien describe un sistema hipotético que claramente esta eje- 
cutando un programa y que pasa la pmeba de Turing, pero que igualmente y de mane- 
ra clara no entiende (segün Searle) ninguna entrada ni salida. Su conclusion es que 
ejecutar el programa adecuado (es decir, tener las salidas adecuadas) no es una condi- 
ciôn suficiente para ser una mente. 

El sistema se compone de un hombre, que solamente entiende inglés, y que esta equi- 
pado con un libro de réglas escrito en inglés y varias pilas de papel, algunas en blanco 
y algunas con inscripciones indescifrables. (El hombre entonces hace el papel de la CPU, 
el libro de normas es el programa y los papeles son el dispositivo de almacenamiento.) 
El sistema se encuentra dentro de una habitaciôn con una apertura al exterior. A través 
de la apertura se van deslizando los papeles con simbolos indescifrables. El hombre en¬ 
cuentra los srmbolos correspondientes en el libro de réglas y sigue las instrucciones. Las 
instmcciones pueden incluir escritura de srmbolos en los papeles nuevos que van saliendo, 
encontrar simbolos en las pilas de papeles, reorganizar las pilas, etc. Finalmente las ins¬ 
trucciones harân que un simbolo o mas sean transcritos a un trozo de papel que se pasa 
otra vez al mundo exterior. 
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Hasta ahora todo esta bien. Pero desde fuera, se observa un sistema que esta sacan- 
do la entrada en forma de sentencias chinas y generando respuestas chinas que obvia- 
mente son tan «inteligentes» como las de la conversaciôn imaginada por Turing 5 . 
Enfonces Searle argumenta lo siguiente: la persona que esta en la habitacion no entiende 
el chino (supuestamente). El libro de réglas y las pilas de papel, que son solo trozos de 
papel no entienden el chino. Por consiguiente no esta habiendo comprensiôn del chino. 
De aquî que, segûn dice Searle, ejecutar el programa adecuado no généra necesaria- 
mente entendimiento. 

Al igual que Turing, Searle examiné e intenté rechazar una sérié de respuestas a este 
argumento. Algunos comentaristas, incluyendo a John McCarthy y a Robert Wilensky, 
propusieron lo que Searle llama larespuesta de los sistemas. La objeciôn es que aunque 
se pueda preguntar si el hombre de la habitacion entiende el chino, esto es como pre- 
guntar si la CPU puede admitir raices cübicas. En ambos casos, la respuesta es no, y en 
ambos casos segûn la respuesta del sistema, el sistema compléta si tiene la capacidad 
en cuestiôn. Ciertamente, si se pregunta a la habitacién china si entiende el chino, la res¬ 
puesta séria afirmativa (en un chino fluido). Segûn la convenciôn educada de Turing, esto 
deberia ser suficiente. La respuesta de Searle es reiterar la cuestiôn de que el entendi¬ 
miento no esta en el hombre y no puede estar en el papel, de forma que no puede haber 
entendimiento. También sugiere algo mas: que nos podriamos imaginar al hombre me- 
morizando el libro de réglas y el contenido de todas las pilas de papel, de manera que 
no hubiera nada que tener que entender excepto al hombre; y una vez mas, si se pregunta 
al hombre (en inglés), la respuesta sera negativa. 

En este punto hemos topado con los temas reales. El cambio a la memorizaciôn des¬ 
de el papel es una pista falsa, porque ambas formas son simplemente instanciaciones 
fisicas de un programa en ejecuciôn. La afirmaciôn real que hace Searle se basa en los 
cuatro axiomas siguientes (Searle, 1990): 

1. Los programas informâticos son entidades sintâcticas y formatas. 

2. Las mentes tienen contenidos o semânticas mentales. 

3. La sintaxis por si misma no es suficiente para la semântica. 

4. Los cerebros originan las mentes. 

A partir de los très primeros axiomas, Searle concluye diciendo que los programas no 
son suficientes para las mentes. En otras palabras, un agente que ejecuta un programa 
podria ser una mente, pero no es necesariamente una mente solo por virtud de ejecu¬ 
tar programas. A partir de los cuatro axiomas concluye que «Cualquier otro sistema 
capaz de originar mentes tendria que tener poderes causales (por lo menos) équivalentes 
a los de los cerebros». De aqui infiere que cualquier cerebro artificial tendria que du- 
plicar los poderes causales, no solo ejecutar un programa en particular, y que los 
cerebros humanos no producen fenômenos mentales solo por virtud de ejecutar un 
programa. 


5 El hecho de que las pilas de papel podrian ser mucho mâs grandes que todo el planeta y de que la genera- 
ciôn de respuestas llevaria millones de anos no redunda en la estructura Iôgica del argumento. Un propôsi- 
to de la formaciôn filosôfica es desarrollar un sentido bien afïnado de las objeciones que guardan relacion y 
las que no. 
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Las conclusiones de que los programas no son suficientes para las mentes si que pro- 
ceden de estos axiomas, si somos generosos en su interpretacion. Pero la conclusion no 
es satisfactoria: todo lo que Searle ha demostrado es que si explicitamente negamos el 
funcionalismo (eso es lo que hace su axioma (3)) enfonces no podemos concluir nece- 
sariamente diciendo que los no-cerebros son mentes. Esto es bastante razonable, de ma- 
nera que el argumento completo se reduce si el axioma (3) puede ser aceptado. Segün 
Searle, el punto de vista del argumento de la habitacion china es proporcionar intuicio- 
nes al axioma (3). Pero la reacciôn de este argumento muestra que proporciona intui- 
ciones solo a los que ya se han inclinado a aceptar la idea de que meros programas no 
pueden generar un entendimiento de verdad. 

Reiterando, el objetivo del argumento de la habitacion china es refutar la IA fuerte, 
es decir la afirmacion de que ejecutar la clase adecuada de programa da como resulta- 
do necesariamente una mente. Esto se hace exhibiendo un sistema aparentemente inte- 
ligente que ejecuta la clase adecuada de programa que no es, segün Searle, 
demostrablemente una mente. En este sentido, Searle apela a la intuiciôn, no a la prue- 
ba: solo hay que observar la habitacion; ^qué hay en ella que sea una mente? Sin em¬ 
bargo, se podrfa hacer el mismo argumento sobre el cerebro: observe el conjunto de 
células (o de âtomos), que funcionan ciegamente segün las leyes de la Bioquimica (o la 
Fisica): /,Qué hay ahi que sea una mente? / ; Por qué un trozo de cerebro puede ser una 
mente mientras que un trozo de higado no puede serlo? 

Ademâs, cuando Searle admite que materiales diferentes a las neuronas podrian en 
principio ser una mente, débilita su argumento aün mas por dos razones: en primer lu- 
gar solo tenemos las intuiciones de Searle (o las nuestras propias) para decir que la ha¬ 
bitacion china no es una mente, y en segundo lugar, aunque determinemos que la 
habitacion no es una mente, no nos dice nada sobre si un programa que se ejecuta en al- 
gün otro medio fisico (incluyendo un computador) podria ser una mente. 

Searle permite la posibilidad logica de que el cerebro esté implementando de ver¬ 
dad un programa de IA de la clase tradicional. Sin embargo, si el mismo programa se 
ejecuta en la clase inadecuada de mâquina no séria una mente. Searle no créé que las 
«mâquinas no puedan tener mentes», en cambio afirma que algunas mâquinas si que tie- 
nen mentes, los hombres son mâquinas biologicas con mentes. No nos queda ninguna 
guia para ver qué tipos de mâquinas califican o no califican. 


26.3 La ética y los riesgos de desarrollar 
la Inteligencia Artifîcial 


Hasta ahora nos hemos concentrado en si podemos desarrollar la IA, pero debemos tam- 
bién tener en cuenta si deben'amos hacerlo. Si es mâs probable que los efectos de la tec- 
nologia de la IA sean mâs negativos que positivos, séria responsabilidad moral de los 
trabajadores en su campo redirigir su investigaciôn. Muchas de las nuevas tecnologias 
han tenido efectos negativos no intencionados: el motor de combustion trajo la poluciôn 
ambiental y la pavimentaciôn del paraiso; la fision nuclear produjo el desastre de 
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Chernobyl, la Isla de las Très Millas y la amenaza de la destrucciôn mundial. Todos los 
cientificos e ingenieros se enfrentan a consideraciones éticas de como deberîan actuar 
en el trabajo, qué proyectos deberîan o no deberîan hacer, como los deberîan abordar. 
Existe incluso un manual sobre la Ética de los Computadores ( Ethics of Computing, 
Berleur y Brunnstein, 2001). Sin embargo, la IA parece que expone problemas nuevos 
yendo mas alla de, por ejemplo, construir puentes que no se desmoronen: 

• Las personas podrfan perder sus trabajos por la automatizaciôn. 

• Las personas podrfan tener demasiado (o muy poco) tiempo de ocio. 

• Las personas podrfan perder el sentido de ser ünicos. 

• Las personas podrfan perder algunos de sus derechos privados. 

• La utilizaciôn de los sistemas de IA podrfa llevar a la pérdida de responsabilidad. 

• El éxito de la IA podrfa significar el fin de la raza humana. 

Vamos a examinar en orden cada uno de estos temas. 

Las personas podrîan perder sus trabajos por la automatizaciôn. La economia 
industrial moderna ha llegado a depender en general de los computadores, y selecciona 
programas de IA en particular. Por ejemplo, gran parte de la economia, especialmente 
en Estados Unidos, dépende de la disponibilidad de créditos del consumidor. Las apli- 
caciones de las tarjetas de crédito, aceptaciones de cargos y detecciôn de fraudes se 
realizan mediante programas de IA. Se podrfa decir que miles de trabajadores han sido 
desplazados por estos programas de IA, pero en efecto si eliminamos estos programas 
de IA estos trabajos no existirian, porque la mano de obra humana anadiria un coste adi- 
cional a las transacciones. Hasta ahora, la automatizaciôn por medio de la tecnologia de 
la IA ha creado mas trabajos de los que ha eliminado, y ha creado puestos de trabajo mas 
interesantes y mejor pagados. Ahora que el programa IA canônico es un «agente inteli- 
gente» disenado para ayudar a un hombre, la pérdida de trabajo preocupa menos que cuan- 
do la IA se centraba en los sistemas expertos disenados para sustituir a los hombres. 

Las personas podrîan tener demasiado (o muy poco) tiempo de ocio. Alvin Toffler 
en su libre Future Shock (1970) escribiô, «La semana laboral se ha recortado el 50 por 
ciento a finales del siglo. No es absurdo decir que se volverâ a reducir a la mitad hacia el 
ano 2000». Arthur C. Clarke (1968b) escribiô que las personas del ano 2001 «podrfan en- 
frentarse a un futuro de gran aburrimiento, en donde el problema principal de la vida es 
decidir cual de los cientos de canales de la télévision seleccionar». La ünica predicciôn 
que ha llegado a resultar cierta es el nümero de canales de télévision (Springsteen, 1992). 
En cambio, las personas que trabajan en las industrias muy relacionadas con el conoci- 
miento han descubierto que forman parte de un sistema computerizado integrado que fun- 
ciona 24 horas al dia; para mantenerlo se han visto forzados a trabajar durante mâs horas. 
En una economia industrial, las recompensas son aproximadamente proporcionales al tiem¬ 
po invertido; trabajar el 10 por ciento mâs llevaria a producir un incremento del 10 por 
ciento en los ingresos. En una economia de la informaciôn marcada por la comunicaciôn 
de un ancho de banda alto y por una reproducciôn fâcil de la propiedad intelectual (lo que 
Lrank y Cook (1996) llaman «Winner-Take-All Society» (la Sociedad del ganador se hace 
con todo)), existe una gran recompensa por ser ligeramente mejor que la competencia; 
trabajar un 10 por ciento mâs podrfa significar un 100 por 100 de incremento en los in¬ 
gresos. De forma que todos se sienten mâs presionados por trabajar mâs fuerte. La IA 
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incrementa el ritmo de la innovaciôn tecnolôgica y contribuye asf a esta tendencia gene¬ 
ral, pero la IA también mantiene la promesa de permitirnos ahorrar tiempo y permitir que 
nuestros agentes automatizados hagan las cosas por un tiempo. 

Las personas podrian perder su sentido de ser ûnicas. En el libre de Weizenbaum 
(1976), Computer Power and Human Reason (El poder de los computadores y la razôn 
humana), el autor del programa ELIZA, senala algunas de las posibles amenazas que su- 
pone la IA para la sociedad. Uno de los argumentas principales de Weizenbaum es que 
la investigaciôn en IA hace posible la idea de que los hombres sean autômatas, una idea 
que produce pérdida de autonomia o incluso de humanidad. Podemos senalar que la idea 
ya existia mucho antes que la IA, nos podemos remontar a L’Homme Machine (La 
Mettrie, 1748). También destacaremos que la humanidad ha sobrevivido a otros contra- 
tiempos hacia nuestro sentido de la unicidad: De Revolutionibus Orbium Coelestium 
(Copernicus, 1543) desplazô a la tierra lejos del centre del sistema solar, y Descent of 
Man (Darwin, 1871) puso al homo sapiens al mismo nivel que otras especies. La IA, 
aunque sea una materia de gran éxito, quizâ sea por lo menos amenazante para las 
suposiciones morales de la sociedad del siglo xxi al igual que la teoria de la evoluciôn 
lo fue para los del siglo xix. 

Las personas podrian perder algo de sus derechos privados. Weizenbaum también 
senalô que la tecnologia del reconocimiento de voz podria llevar a una intercepciôn 
extensa de cableados, y de aqui a la pérdida de las libertades civiles. No previô un mun- 
do con amenazas terroristas que cambiarian el equilibrio de la vigilancia que estarian 
dispuestas a aceptar las personas, sino que reconoceria correctamente que la IA tiene el 
potencial de producir una vigilancia en grandes cantidades. Esta predicciôn puede con- 
vertirse en realidad: el sistema clasificado Echelon del gobierno americano «consiste en 
una red de envios de escucha, campos de antenas y estaciones de radar; el sistema esta 
respaldado por computadores que utilizan traducciôn de lenguajes, reconocimiento de 
voz y palabras clave que buscan pasar por la criba automâticamente todo el trâfico de 
llamadas telefônicas, correos electrônicos, faxes y telex» 6 . Algunas personas reconocen 
que la computerizaciôn conduce a la pérdida de privacidad, por ejemplo, el consejero 
delegado de Sun Microsystems, Scott McNealy ha dicho que «De cualquier forma te- 
nemos privacidad cero. Hay que superarlo». Otros no estân de acuerdo. Por ejemplo, el 
juez Louis Brandeis en 1890 escribiô que «La privacidad es el derecho mas compléta y 
extenso de todos... el derecho de la personalidad de uno mismo». 

La utilizaciôn de sistemas de IA podria llevar a la pérdida de responsabilidad. En 
la atmôsfera de litigios que prevalece en Estados Unidos, la obligaciôn legal se convierte 
en un tema importante. Cuando un médico dépende del juicio de un sistema médico ex- 
perto para hacer diagnôstico, ^quién es el culpable si el diagnôstico es errôneo? Afor- 
tunadamente, debido en parte a la mayor influencia en medicina de métodos teôricos para 
las decisiones, se acepta que la negligencia no puede demostrarse si un médico lleva cabo 
procedimientos médicos que tienen una utilidad altamente esperada, incluso si el 
resultado real es catastrôfico para el paciente. Por tanto la pregunta deberia ser «^Quién 
tiene la culpa si el diagnôstico no es razonable?». Hasta ahora, los juzgados han man- 


6 Véase «Eavesdropping in Europe» (Escucha a escondidas en Europa), Wired news, 30/09/1998, e infor¬ 
mes citados por la UE. 
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tenido que los sistemas médicos expertos desempenan el mismo papel que los libres de 
texto médicos y los libres de referencias; los médicos son responsables de entender el 
razonamiento que soporta esta decision y de utilizar su propio juicio a la ahora de deci- 
dir si se aceptan las recomendaciones del sistema. Por tanto, en el diseno de sistemas 
médicos expertos como agentes, no se deberia considerar que las acciones afectan di- 
rectamente a los pacientes, sino que influyen directamente en el comportamiento del mé- 
dico. Si los sistemas expertos se hacen mas fiables y precisos que los hombres que hacen 
los diagnôsticos, los médicos podrian tener obligaciones legales si no utilizan las reco¬ 
mendaciones de un sistema experto. Gawande (2002) explora esta premisa. 

Estân empezando a aparecer temas similares en relacion con la utilizacion de agen¬ 
tes inteligentes en Internet. Se han hecho progresos en la incorporacion de limitaciones 
en los agentes inteligentes de forma que no pueden, por ejemplo, danar los archivos de 
otros usuarios (Weld y Etzioni, 1994). El problema se magnifica cuando el dinero cam¬ 
bia de manos. Si las transacciones monetarias las realiza un agente inteligente en nom¬ 
bre de alguien, / esta obligado por las deudas incurridas? /Séria posible que un agente 
inteligente tuviera activos o que realizara compras electronicas en su propio nombre? Has- 
ta ahora, parece que estas cuestiones no se entienden de forma clara. En nuestro cono- 
cimiento, ningün programa ha recibido ningün estado legal como individuo con fines 
financières; por el momento, parece que no es razonable hacerlo. Los programas tam- 
poco son considerados «conductores» para reforzar las regulaciones del trâfico en 
autovias reales. En las leyes califomianas, por lo menos, no parece haber ninguna san- 
cion legal que impida a un vehfculo automatizado exceder los limites de velocidad, aunque 
el disenador del mecanismo de control de vehiculos si tuviera obligacion en caso de ac¬ 
cidente. Al igual que con la tecnologia para la reproduccion humana, la ley tiene toda- 
via que ponerse a la altura de los nuevos desarrollos. 

El éxito de la IA podria significar elfin de la raza humana. Casi cualquier tecnolo¬ 
gia tiene el potencial de hacer dano si se encuentra en las manos equivocadas, pero con 
la IA y la robotica, tenemos el problema nuevo de que las manos equivocadas podrian 
pertenecer a dicha tecnologia. Incontables historias de ciencia ficcion nos han alertado 
de los robots o de los «cyborgs» (robots-hombre) que se comportan de forma enajena- 
da. Entre los primeros ejemplos se incluyen Frankenstein de Mary Shelly, o el Modem 
Prometheus {El Prometeo Moderno) (1818) 7 , y la obra de Karel Capek R.U.R. (1921), 
en la que los robots conquistan el mundo. En cine, también tenemos Terminador ( The 
Terminator ) (1984), en donde se combinan clichés de robots que conquistan el mundo 
con el viajar en el tiempo, y Matrix {The Matrix) (1999), en donde se combinan robots 
que conquistan el mundo y el cerebro en una cubeta. 

Para una gran mayoria, parece que los robots son protagonistas de muchas historias 
de conquistas del mundo porque representan lo desconocido, de la misma manera que 
las brujas y los fantasmas de cuentos de otras décadas mas antiguas. /Suponen una ame- 
naza mas creible que las brujas y los fantasmas? Si los robots estuvieran disenados ade- 
cuadamente como agentes que adoptan las metas de sus propietarios, probablemente no 
supondrian una amenaza: los robots que derivan de mayores avances sobre sus disenos 
actuales, si que van a servir y no a conquistar. Los hombres utilizan su inteligencia de 


7 Charles Babbage, cuando era joven, se vio influenciado por la lectura de Frankenstein. 
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formas agresivas porque son innatas, por naturaleza. Sin embargo, las mâquinas que cons- 
truimos no tienen que ser innatamente agresivas, a menos que decidamos que asi sean. 
Por un lado, es posible que los computadores logren una clase de conquista sirviendo y 
haciéndose indispensables, de la misma manera que los automôviles han conquistado en 
cierto sentido el mundo industrializado. Este escenario merece mas atenciôn. En 1965, 
I. J. Good escribio: 

Vamos a définir una mâquina ultrainteligente como una mâquina que puede sobrepasar 
con mucho todas las actividades intelectuales de cualquier hornbre, por muy inteligente 
que sea. Puesto que el diseno de las mâquinas es una de estas actividades intelectuales, 
una mâquina ultrainteligente podrfa disenar mâquinas incluso mejores; entonces existi- 
ria incuestionablemente una «explosion de inteligencia», y la inteligencia del hornbre que- 
daria bastante atrâs. Asi pues la primera mâquina ultrainteligente es la ültima invenciôn 
que haya hecho nunca el hornbre, siempre que la mâquina sea lo sufïcientemente dôcil 
como para decimos como controlarla. 

La «explosion de inteligencia» también ha sido llamada singularidad tecnolôgica por el 
profesor de Matemâticas y autor de ciencia ficciôn Vemor Vinge, (1993) quien escribio que, 
«Dentro de treinta anos, tendremos el medio tecnologico de crear una inteligencia super- 
humana. Algün tiempo después, la era humana habrâ acabado». Good y Vinge (y muchos 
otros) senalan correctamente que la curva del progreso tecnologico actualmente esta cre- 
ciendo de manera exponencial (tomemos en consideraciôn, por ejemplo, la ley de Moore). 
Sin embargo, es un buen paso adelante extrapolar que la curva continuarâ hacia la singu¬ 
laridad de un crecimiento casi infinito. Hasta ahora, el resto de tecnologias han seguido una 
curva en forma de S, en donde el crecimiento exponencial finalmente disminuye. 

La preocupaciôn y el miedo de Vinge radica en llegar a la singularidad, sin embargo 
otros cientificos y futuristas gozan con esa idea. En el Robot, Mere Machine to Trascendent 
Mind (Mera mâquina hacia la mente trascendente), Hans Moravec predice que los robots 
se igualarân a la inteligencia humana en 50 anos y a continuaciôn la excederân: 

De manera bastante râpida podrfamos quedar desplazados y fuera de la existencia. No 
estoy tan alarmado como muchos otros por esta ültima posibilidad, ya que considero que 
las mâquinas del futuro son nuestra progenie, «hijos de mente» construidos a nuestra ima- 
gen y semejanza, es decir, nosotros mismos pero en una forma mâs potente. Al igual que 
los hijos biologicos de generaciones anteriores, representarân la mejor esperanza de la 
humanidad para un futuro a largo plazo. Nos corresponde a nosotros ofrecerles todas las 
ventajas, y como retirarnos cuando ya no podamos contribuir. (Moravec, 2000.) 

Ray Kurzweil, en The Age of Spiritual Machines (2000) predice que hacia el ano 2099 
existirâ «una fuerte tendencia hacia una fusion del pensamiento humano en el mundo de 
la inteligencia de la mâquina que las especies humanas crearon inicialmente. Ya no exis¬ 
te una distinciôn clara entre los hombres y los computadores». Existe incluso una pala¬ 
bra nueva, trashumanismo, que se refiere al movimiento social real que ansia este futuro. 
Basta con decir que estos temas presentan un reto para la mayorfa de los teôricos que con- 
sideran la preservaciôn de la vida humana y de las especies como algo bueno. 

Finalmente, tomemos en consideraciôn el punto de vista del robot. Si los robots 
adquieren consciencia, tratarlos entonces como meras «mâquinas» (por ejemplo, tratarlos 
como algo aparté) podrfa ser inmoral. Los robots también deben actuar moralmente, 
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necesitariamos programarlos con una teoria de lo que esta bien y lo que esta mal. Los 
escritores de ciencia ficciôn han abordado el tema de los derechos y responsabilidades 
de los robots, empezando por Isaac Asimov (1942). La famosa pelicula titulada A.l. 
(Spielberg, 2001) se basô en una historia de Brian Aldiss sobre el robot inteligente que 
fue programado para creer que él era un humano y que no entiende el abandono final 
por parte de su madre-propietaria. La historia (y la pelicula) convencen de la necesidad 
de los robots para moverse por sus derechos civiles. 


26.4 Resumen 


Este capitulo ha abordado los siguientes temas: 

• Los filôsofos utilizan el término IA débil para la hipôtesis de que las mâquinas 
podrian comportarse posiblemente de forma inteligente, y el término IA fuerte para 
la hipôtesis de que dichas mâquinas contarian como si tuvieran mentes reales (en 
contraposiciôn a las mentes simuladas). 

• Alan Turing rechazô la cuestiôn «^Pueden pensar las mâquinas?», y lo sustituyô 
por un test de comportamiento. Previeron muchas objeciones a la posibilidad de 
mâquinas pensantes. Pocos investigadores en IA prestan atenciôn al Test de 
Turing, y prefieren concentrarse en el rendimiento de sus sistemas en base a tare- 
as prâcticas, en vez de la habilidad de imitar a los humanos. 

• Actualmente existe el acuerdo general de que los estados mentales son los esta- 
dos del cerebro. 

• Los argumentos a favor y en contra de la IA fuerte no son concluyentes. Unos pocos 
investigadores dominantes en la disciplina de la IA creen que cualquier cosa 
significativa gira en torno al resultado del debate. 

• La consciencia sigue siendo un misterio. 

• Se han identificado ocho amenazas potenciales para la sociedad que se exponen 
tanto ante la IA como ante una tecnologia relacionada. Podemos concluir dicien- 
do que algunas amenazas son improbables, pero merece la pena revisar dos de 
ellas en particular. La primera es que las mâquinas ultrainteligentes podrian 
llevarnos a un futuro muy diferente del actual y puede que no sea de nuestro agra- 
do. La segunda es que la tecnologia de la robôtica puede permitir a individuos con 
una psicopatia emplear armas de destrucciôn masiva. Concluimos diciendo que esto 
es mâs una amenaza de la biotecnologia y nanotecnologia que de la robôtica. 



Notas bibliogrâficas e histôricas 

La naturaleza de la mente ha sido un tema estândar de la teorizaciôn filosôfica desde tiem- 
pos inmemoriales hasta hoy en dia. En el Phaedo, Platon considéré y rechazô de forma 
especifica la idea de que la mente podria ser una «adaptaciôn» o un modelo de organi- 
zaciôn de las partes del cuerpo, un punto de vista que se aproxima al punto de vista fun- 
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cionalista de la filosofia moderna de la mente. En cambio, déterminé que la mente té¬ 
nia que ser un aima inmortal, inmaterial, separable del cuerpo y diferente en sustancia, 
del punto de vista del dualismo. Aristoteles distinguio una variedad de aimas (en grie- 
go i/'U/J?) de los seres vivos, describiendo algunas, por lo menos, de forma funcionalis- 
ta. (Véase Nussbaum (1978) para mas informaciôn sobre el funcionalismo de Aristoteles.) 

Descartes destaca por su punto de vista dualista de la mente humana, aunque irôni- 
camente su influencia historica se dirigié hacia el mecanismo y el materialismo. Expli- 
citamente, concibio a los animales como autômatas, y se anticipé al Test de Turing, 
escribiendo que «no se puede concebir [que una mâquina] élaboré diferentes colocaciones 
de palabras para dar una respuesta con un significado adecuado para todo lo que se diga 
en su presencia, incluso de la misma forma que los hombres mas aburridos cuando ha- 
blan» (Descartes, 1637). La ardiente defensa que hace Descartes del punto de vista de 
los animales como autômatas realmente tuvo el efecto de facilitar también la concep- 
ciôn de los hombres como autômatas, incluso aunque él mismo no diera ese paso. El li- 
bro L’Homme Machine o Man a Machine (La Mettrie, 1748) argumenté explicitamente 
que los hombres son autômatas. 

La filosofia analitica moderna normalmente ha aceptado el materialismo (a menu- 
do mediante la teoria de la identidad del estado del cerebro (Place, 1956; Armstrong, 
1968), la cual afirma que los estados mentales son idénticos a los estados del cerebro)), 
sin embargo ha estado mucho mas dividida en el funcionalismo, en la analogia de la 
mâquina con le mente humana, y la cuestién de si las mâquinas literalmente pueden pen- 
sar. Scriven (1953), por ejemplo, entre las primeras respuestas filoséficas a Turing 
(1950) «Computing Machinery and Intelligence», intenté negar que tuviera significado 
decir que las mâquinas pudieran pensar, basândose en que dicha afirmaciôn violaba el 
significado del mundo. En el apéndice de la reimpresiôn de este articulo se puede ver 
que, por lo menos, Scriven hacia el ano 1963 se rétracté de este punto de vista (Ander¬ 
son, 1964). El cientifico informâtico Edsger Dijkstra dije que «La cuestién de si un com- 
putador puede pensar no es mâs interesante que la cuestién de si un submarino puede 
nadar». Ford y Hayes (1995) argumentan que el Test de Turing no es ütil para la IA. 

El funcionalismo es la filosofia de la mente que mâs naturalmente sugiere la IA, y 
las criticas del funcionalismo a menudo toman forma a partir de las criticas sobre la IA 
(como en el caso de Searle). Siguiendo la clasificaciôn utilizada por Block (1980), se 
pueden distinguir variedades del funcionalismo. La teoria de la especificaciôn funcio- 
nal (Lewis, 1966, 1980) es una variante de la teoria de la identidad del estado del cere¬ 
bro la cual selecciona los estados del cerebro que se identifican con los estados mentales 
en su papel (roi) funcional. La teoria de la identidad del estado funcional (Putnam, 
1960, 1967) se basa mâs estrechamente en la analogia de la mâquina. No identifica los 
estados mentales con los estados fîsicos del cerebro sino con los estados abstractos 
computacionales del cerebro concebidos expresamente como un dispositivo informâti¬ 
co. Se supone que estos estados abstractos son independientes de la composicién fisica 
especifica del cerebro, lo que lleva a considerar que la teoria de la identidad del estado 
funcional es una forma de dualismo. 

Tanto la teoria de la identidad del estado del cerebro como las diferentes formas de 
funcionalismo han sido atacadas por autores afirmando que no tienen en consideracién 
la qualia o el aspecto «a qué se asemejan» de los estados mentales (Nagel, 1974). En 
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cambio, Searle se ha centrado en la supuesta incapacidad del funcionalismo (Searle, 1980, 
1984, 1992). Churchland y Churchland (1982) rebaten ambas formas de critica. 

El materialismo eliminativo (Rorty, 1965; Churchland, 1979) difiere de las otras 
teorias prominentes de la filosofia de la mente, en que no intenta dar cuenta de por qué 
son verdaderas las ideas de «la psicologia popular» y del sentido comün sobre la men¬ 
te, sino que por el contrario las rechaza como si fueran falsas e intenta sustituirlas por 
una teoria puramente cientifica de la mente. En principio, esta teoria cientifica podrfa 
ser proporcionada por una IA clâsica, pero en cambio, en la prâctica, los materialistas 
eliminativos tienden a apoyarse en la investigacion de la neuro ciencia y de las redes 
neuronales (Churchland, 1986), sin embargo, basândose en la IA clâsica, especialmen- 
te en la investigacion de la «representaciôn del conocimiento» del tipo descrito en el 
Capitulo 10, tienden a confiar en la verdad de la psicologia popular. Aunque el punto de 
vista del «estado intencional» (Dennett, 1971) pudiera interpretarse como funcionalis- 
ta, probablemente deberia considerarse como una forma de materialismo eliminativo, en 
el sentido de que la «postura intencional» no tiene que reflejar ninguna propiedad obje- 
tiva del agente hacia el que se toma esa postura. También se deberia destacar que es 
posible ser un materialista eliminativo en algunos aspectos de la mentalidad a la vez que 
se analizan otras de forma diferente. Por ejemplo, Dennett (1978) es mue ho mas elimi¬ 
nativo en cuanto a la qualia que en cuanto a la intencionalidad. 

Ya se han proporcionado en este mismo capitulo otras fuentes de criticas importan¬ 
tes hacia la IA débil. Aunque estuvo muy en auge ridiculizar los enfoques simbolicos 
en la era de las redes post-neuronales, no todos los filosofos son criticos de GOFAI. De 
hecho, algunos son ardientes partidarios e incluso buenos profesionales. Zenon Pylyshyn 
(1984) ha argumentado que la cognicion se puede entender mejor a través de un mode- 
lo computacional, no solo en principio sino también en la forma de realizar una inves¬ 
tigacion contemporânea, y ha refutado especificamente las criticas de Dreyfus en cuanto 
al modelo computacional de la cognicion humana (Pylyshyn, 1974). Gilbert Harman 
(1983), quien en el anâlisis de la révision de las creencias ha realizado conexiones con 
la investigacion de la IA en los sistemas del mantenimiento de verdad. Michael Bratman 
ha aplicado su modelo de «creencia-deseo-intencion» de la psicologia humana (Bratman, 
1987) a la investigacion de la IA en planificacion (Bratman, 1992). En el lado extremo 
de la IA fuerte, Aaron Sloman (1978, p. xiii) ha descrito incluso como «racista» el pun¬ 
to de vista de Joseph Weizenbaum (Weizenbaum, 1976) diciendo que las mâquinas in- 
teligentes hipotéticas no deberfan considerarse personas. 

La literatura filosôfica sobre las mentes, los cerebros, y otros temas relacionados es 
extensa y algunas veces dificil de leer sin una prâctica adecuada en la terminologia y en 
los métodos de argumentar empleados. La Enciclopedia de la Filosofia ( Encyclopedia of 
Philosofy) (Edwards, 1967) es una ayuda sorprendentemente fidedigna y ütil de este pro- 
ceso. El Diccionario de Filosofia de Cambridge ( The Cambridge Dictionary of Philosofy) 
(Audi, 1999) es un trabajo mâs reducido y mâs accesible, pero las entradas principales 
(taies como «filosofia de la mente») todavia abarcan 10 pâginas o mâs. La Enciclopedia 
de la Ciencia Cognitiva del MIT ( MIT Encyplopedia of Cognitive Sciencie ) (Wilson y Keil, 
1999) aborda la filosofia de la mente asi como la biologia y la psicologia de la mente. 
Otras colecciones de articulos sobre filosofia de la mente, incluyendo el funcionalismo 
y otros puntos de vista relacionados con la IA son El Materialismo y el Problema de Men- 
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te-Cuerpo ( Materialism and the Mind-Body Proble, Rosenthal, 1971 ) y Lecturas de la Fi- 
losofla de la Psicologla ( Readings in the Philosophy of Psycology, volumen 1, Block, 

1980) . Biro y Shahan (1982) presentan una coleccion dedicada a los pros y los contras 
del funcionalismo. Entre las antologlas que tratan mas especlficamente con la relacion 
entre la Filosofïa y la IA se incluyen Minds and Machines (Anderson, 1964), Philoso- 
phical Perspectives in Artificial Intelligence (Ringle, 1979), Mind Design (Haugeland, 

1981) y The Philosophy of Artificial Intelligence (Boden, 1990). Existen varias intro- 
ducciones a la «cuestion IA» filosôfica (Boden, 1977, 1990; Haugeland, 1985; Copeland, 
1993). The Behavioral andBrain Sciences, abreviado BBS, es una publicaciôn importante 
dedicada a debates filosoficos y cientificos sobre la IA y la neurociencia. En publicacio- 
nes como AI and Society, Law, Computers and Artificial Intelligence, y Artificial Intelli¬ 
gence and Law se tratan los temas de la ética y la responsabilidad en la IA. 



EJERCICIOS 

26.1 Repase la lista de presuntas incapacidades de las mâquinas de Turing, identifi- 
cando cuâles se han logrado, cuâles se pueden lograr en principio por cualquier progra- 
ma, y cuâles son aün problemâticas porque requieren estados mentales conscientes. 

26.2 / ; La refutaciôn de la habitaciôn china demuestra necesariamente que los compu- 
tadores con una programacion adecuada tienen estados mentales? / ; La aceptacion del ar¬ 
gumenta significa necesariamente que los computadores no pueden tener estados 
mentales? 


26.3 En el argumento de la prôtesis del cerebro, es importante poder restaurar el ce- 
rebro de un sujeto a un estado normal, de tal manera que su comportamiento externo sea 
como si la operacion no hubiera tenido lugar. ^Puede un escéptico objetar razonablemente 
que esto requeriria actualizar las propiedades neuropsicolôgicas de las neuronas que se 
relacionan con la experiencia consciente, distintas de las que tienen que ver con el com¬ 
portamiento funcional de las neuronas? 

26.4 Encuentre y analice un caso relacionado con los medios de comunicaciôn popu- 
lares sobre un argumento o mas, en relacion con la idea de que la IA es imposible. 

26.5 Intente définir los términos «inteligencia», «pensamiento» y «consciencia». Su- 
giera algunas posibles objeciones a sus definiciones. 

26.6 Analice las posibles amenazas a la sociedad de la tecnologla de IA. ^Cuâles son 
las amenazas mas sérias, y como se podrian combatir? / ; C6mo se podrian comparar con 
las posibles ventajas? 

26.7 Coin o se pueden comparar las posibles amenazas de la tecnologla de la IA con 
otras de otras tecnologlas informâticas, y con las de las tecnologlas nucleares, bionucleares 
y nanonucleares? 

26.8 Algunos criticos piensan que la IA es imposible, mientras que otros dicen que es 
demasiado posible, y que las mâquinas ultrainteligentes suponen una amenaza. / ; Cuâi 
de estas objeciones piensa que es mâs probable? ^ Séria una contradiccion mantener am- 
bas opiniones? 






IA: présente 
y futuro 


En en el que nos interesamos por dônde nos encontramos y hacia dônde vamos, 
lo cual es bueno antes de seguir hacia adelante. 



En la Parte I, propusimos una vision unificada de la IA como diseno racional de agen¬ 
tes. Demostramos que el problema del diseno dépende de las percepciones y acciones 
de los que disponga ese agente, las metas que deberia satisfacer el comportamiento del 
agente, y la naturaleza del entorno. Pueden existir diferentes disenos de agentes, desde 
agentes reactivos hasta agentes basados en conocimiento y completamente deliberati- 
vos. Ademâs, los componentes de estos disenos pueden tener diferentes instanciaciones, 
por ejemplo, lôgicas, probabilisticas o «neuronales». En los capitulos intermedios se pre- 
sentaron los principios por los que funcionan estos componentes. 

Ha habido un tremendo avance tanto en el entendimiento cientifico como en nuestras 
habilidades tecnologicas en lo referente a los disenos y componentes de agentes. En este 
capitulo, no entraremos en detalles y nos preguntaremos, ( 'Nos va a llevar este progreso a 
un agente inteligente de propôsito general que pueda actuar correctamente en diferentes 
entornos? El Apartado 27.1 estudia los componentes de un agente inteligente para évaluai - 
lo que se conoce y lo que no. El Apartado 27.2 hace lo mismo, pero en la arquitectura com¬ 
pléta de los agentes. El Apartado 27.3 pregunta si «el diseno de agentes racionales» es el 
objetivo adecuado en primer lugar. (La respuesta es, «Realmente no, pero por ahora esta 
bien».) Finalmente, el Apartado 27.4 examina las consecuencias del éxito en nuestros es- 
fuerzos. 


27.1 Componentes de los agentes 


En el Capitulo 2 presentamos varios disenos de agentes y sus componentes. Para cen¬ 
trer nuestro estudio, examinaremos el agente basado en la utilidad, como se muestra en 
la Figura 27.1. Este es el diseno de agentes mas general de todos. Estudiaremos también 
su extension con capacidades de aprendizaje, como se représenta en la Figura 2.15. 
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Interaction con el entorno a través de sensores y actuadores: durante mucho tiem- 
po en la historia de la IA, esto ha sido un notorio punto débil. Con unas pocas excep- 
ciones honorables, los sistemas IA se construyeron de tal forma que los humanos tenlan 
que proporcionar las entradas e interpretar las salidas, mientras que los sistemas roboticos 
se centraban en tareas de bajo nivel en donde el razonamiento y la planification de alto 
nivel estaban totalmente ausentes. Esto fue debido en parte al gran esfuerzo que reque- 
ria la ingenieria y el alto coste para hacer funcionar robots listos. En los ültimos anos la 
situaciôn ha cambiado râpidamente con la disponibilidad de robots programables listos 
para utilizarse o prefabricados, taies como los robots de cuatro patas que se muestran en 
la Figura 25.4(b). A su vez, estos se han beneficiado de las pequenas câmaras CCD ba- 
ratas y de alta résolution, y de las unidades motoras compactas y fiables. La tecnologla 
MEMS (sistemas micro-electromecânicos) ha facilitado acelerometros miniaturizados 
y esta elaborando actuadores (efectores) que, por ejemplo, podrân activar a un insecto 
volador artificial. (También es posible combinar millones de actuadores MEMS para pro- 
ducir actuadores macroscopicos muy potentes.) Para los entornos flsicos, entonces, los 
sistemas IA ya no tienen realmente excusa. Ademâs, ya se dispone de un entorno ente- 
ramente nuevo como es Internet. 

Seguir la pista del estado del mundo: ésta es una de las capacidades centrales que 
se requieren para un agente inteligente. Requiere tanto perception como actualizacion 
de las representaciones internas. En el Capltulo 7 describimos los métodos para seguir 
la pista de los mundos descritos por la logica proposicional; el Capltulo 10 lo ampliô 
hasta llegar a la logica de primer orden; y el Capltulo 15 describio los algoritmos de fïl- 
trado para rastrear entornos inciertos. Las herramientas de filtrado se necesitan cuando 
esta involucrada la perception real (y por tanto imperfecta). Los algoritmos actuales de 
filtrado y de perception pueden combinarse para hacer un trabajo razonable de infor- 
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INCERTIDUMBRE 
DE IDENTIDAD 


mar predicados de bajo nivel, taies como «la taza esta sobre la mesa», sin embargo, te- 
nemos mucho que recorrer antes de que puedan informar de que «el Doctor Russell esta 
tomando una taza de té con el Doctor Norvig». Otro problema es que aunque los algo- 
ritmos de filtrado aproximados puedan manejar una cantidad bastante grande de entor- 
nos, todavla son esencialmente proposicionales; como en la lôgica proposicional, no 
pueden representar objetos ni relaciones de forma explicita. El Capltulo 14, explicô como 
se pueden combinar la probabilidad y la lôgica de primer orden para resolver este pro¬ 
blema; esperemos que la aplicaciôn de estas ideas para rastrear entornos complejos pro- 
duzca grandes beneficios. Casualmente, tan pronto como empecemos a hablar de objetos 
y de un entorno incierto, nos encontraremos con la incertidumbre de identidad, no co- 
nocemos qué objeto es cuâl. Este problema ha sido el gran ignorado por la IA basada en 
la lôgica, en la cual se ha supuesto generalmente que las percepciones incorporan slm- 
bolos constantes que identifican a los objetos. 

Proyecciôn, evaluaciôn y sélection de cursos futuros de action', los requisitos bâsi- 
cos de representaciôn del conocimiento son los mismos aqul que para seguir la pista del 
mundo; la dificultad bâsica es hacer frente a los cursos de acciôn, taies como tener una 
conversaciôn o tomar una taza de té, que finalmente constan de miles y millones de pa- 
sos primitivos para un agente real. Es solo al imponer una estructura jerarquica que 
los humanos podemos abordarlos. Algunos de los algoritmos de planificaciôn del Ca- 
pitulo 12 utilizan representaciones jerârquicas y representaciones de primer orden para 
manejar problemas de esta escala; por otro lado, los algoritmos ofrecidos en el Capltu- 
lo 17 para la toma de decisiones bajo incertidumbre estân utilizando esencialmente las 
mismas ideas que los algoritmos de büsqueda basados en el estado del Capltulo 3. 
Obviamente, aqul todavfa queda mucho por hacer, quizâs en la llnea de los desarrollos 
actuales en el aprendizaje de refuerzo jerârquico. 

La utilidad como expresiôn de preferencias : en principio, basar las decisiones en la 
maximizaciôn de la utilidad esperada es completamente general y évita muchos de los 
problemas de los enfoques basados puramente en objetivos, taies como objetivos con- 
flictivos y consecuciôn incierta. Sin embargo, hasta ahora, no se ha trabajado mucho en 
la construcciôn de funciones de utilidades realistas; imaginemos, por ejemplo, una red 
compleja de preferencias interactuantes que debe ser entendida por un agente que fun- 
ciona como un asistente de oficina para un ser humano. Résulta muy diflcil descompo- 
ner las preferencias en estados complejos de la misma forma que las redes de Bayes 
descomponen las creencias sobre los estados complejos. Una razôn puede ser que las pre¬ 
ferencias sobre los estados se compilan desde las preferencias sobre las historias de es¬ 
tados descritas por las funciones de recompensa (véase el Capltulo 17). Aunque la 
funciôn de recompensa sea simple, la funciôn de utilidad correspondiente puede ser muy 
compleja. Esto sugiere que hay que tomar muy en serio la tarea de ingenierla del cono¬ 
cimiento para las funciones de recompensa como una forma de transmitir a nuestros agen¬ 
tes qué es lo que queremos que hagan. 

Aprendizaje : los Capltulos 18 y 20 describen la forma en que se puede formular el 
aprendizaje en un agente como aprendizaje inductivo (supervisado, sin supervisar o 
basado en el refuerzo) de las funciones que constituyen los diferentes componentes del 
agente. Se han desarrollado técnicas estadlsticas y lôgicas muy poderosas que pueden 
hacer frente a problemas bastante grandes, alcanzando o excediendo las capacidades 
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humanas en la identification de patrones predictivos definidos en un vocabulario dado. 
Por otro lado, el aprendizaje de la mâquina no ha avanzado mucho en cuanto al impor¬ 
tante problema de construir representaciones nuevas a niveles de abstracciôn mayores 
que el vocabulario de entrada. Por ejemplo, ^como puede generar un robot autonomo 
predicados ütiles taies como Oficina y Café si no son proporcionados por los humanos? 
Consideraciones similares se aplican al comportamiento del aprendizaje, TomarUnaTa- 
zaDeTé es una action de alto nivel importante, pero, /como introducirla en una biblio- 
teca de acciones que inicialmente contiene acciones mucho mas simples taies como 
LevanteelBrazo y Traguel A menos que entendamos estos temas, nos enfrentamos a la 
tarea desoladora de construir a mano grandes bases de conocimiento de sentido comün. 


27.2 Arquitecturas de agentes 


Es natural que preguntemos, «/Cuti de las arquitecturas de agentes del Capitulo 2 
deberian utilizar los agentes?» La respuesta es «jTodas ellas!». Hemos visto que para 
situaciones en las que el tiempo no es esencial, se necesitan respuestas reflejas, mien- 
tras que la deliberacion basada en el conocimiento permite que el agente planifique con 
antelacion. Un agente completo debe ser capaz de hacer las dos cosas, utilizando una 
arquitectura hibrida. Una propiedad importante de las arquitecturas h fbridas es que los 
limites entre los diferentes componentes de decision no son fijos. Por ejemplo, la com- 
pilaciôn, a nivel deliberativo, convierte continuamente la informaciôn declarativa en re¬ 
presentaciones mas eficientes, alcanzando fmalmente el nivel reflejo, véase la Figura 27.2 
(Este es el proposito del aprendizaje basado en explicaciones que se examiné en el 
Capitulo 19). Las arquitecturas de agentes taies como Soar (Laird et al., 1987) y Théo 
(Mitchell, 1990) tienen exactamente esta estructura. Cada vez que resuelven un proble¬ 
ma mediante deliberacion explicita se almacena una version generalizada de la solution 
para usarla en un componente reflejo. Un problema menos abordado es la inversion de 
este proceso: cuando el entorno cambia, los reflejos aprendidos ya no son apropiados y 
el agente debe retornar al nivel deliberativo para producir comportamientos nuevos. 
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IA EN TIEMPO REAL 


ALGORITMOS 
DE CUALQUIER 
MOMENTO 


METARAZONAMIENTO 
TEÔRICO PARA 
LAS DECISIONES 


ARQUITECTURA 

REFLEXIVA 


Los agentes también necesitan formas de controlar sus propias deliberaciones. De- 
ben poder parar de deliberar cuando se exige la accion, y deben poder utilizar el tiem- 
po del que disponen para la deliberacion y ejecutar los cômputos mas rentables. Por 
ejemplo, un agente que conduce un taxi y ve un accidente delante, debe decidir en me- 
nos de un segundo si frenar o actuar de forma evasiva. También deberia pensar en me- 
nos de un segundo las cuestiones mas importantes, taies como si los carriles de la 
izquierda y derecha estân libres y si tiene un camion detrâs muy cerca, en vez de preo- 
cuparse de la tension y el desgaste en las ruedas (neumâticos, gomas) o de dônde reco- 
ger al siguiente pasajero. Estos temas normalmente se estudian bajo el encabezamiento 
de IA en tiempo real. A medida que los sistemas IA entran en dominios mas comple- 
jos, todos los problemas serân de tiempo real, porque el agente nunca tendra tiempo su- 
ficiente como para resolver el problema de la decision de forma exacta. 

Obviamente, existe una necesidad urgente de métodos que funcionen en situaciones 
de toma de decisiones mas generales. En los ültimos anos han surgido dos técnicas pro- 
metedoras. La primera conlleva la utilizaciôn de algoritmos de cualquier momento (any- 
time) (Dean y Boddy, 1988; Horvitz, 1987). Un algoritmo de esta clase es un algoritmo 
cuya calidad de salida mejora gradualmente con el tiempo, de manera que tiene prepa- 
rada una decision razonable siempre que tenga una interrupciôn. Dichos algoritmos se 
controlan mediante un procedimiento de decisiones de metanivel que evalüa si merece 
la pena realizar mas cômputos. Una büsqueda iterativa cada vez mas en profundidad en 
los juegos es un ejemplo simple de un algoritmo de cualquier momento. También se pue- 
den construir sistemas mas complejos, que se compongan de muchos algoritmos de esta 
clase trabajando juntos (Zilberstein y Russell, 1996). La segunda técnica es el metara- 
zonamiento teôrico para las decisiones (Horvitz, 1989; Russell y Wefald, 1991; Hor¬ 
vitz y Breese, 1996). Este método aplica la teoria del valor de la informaciôn (véase el 
Capitulo 16) para la selecciôn de cômputos. El valor de un cômputo dépende tanto de 
sus costes (en lo que se refiere a demorar la accion) como de sus beneficios (en cuanto 
a la calidad de decision mejorada). Las técnicas del meta-razonamiento se pueden uti¬ 
lizar para disenar mejores algoritmos de büsqueda y para garantizar que los algoritmos 
tienen la propiedad «cualquier momento» ( anytime ). Desde luego que el meta-razona- 
miento es caro y que los métodos de compilaciôn se pueden aplicar para que los sobre - 
costes sean pequenos en comparaciôn con los costes de los cômputos que se estân 
controlando. 

El meta-razonamiento no es sino un aspecto de una arquitectura reflexiva general, 
es decir, una arquitectura que permite la deliberacion sobre las entidades y las acciones 
computacionales que ocurren dentro de la misma arquitectura. Un fundamento teôrico 
de las arquitecturas reflexivas se puede construir mediante la definiciôn de un espacio 
de estados conjunto compuesto por el estado del entomo y del estado computacional del 
mismo agente. Se pueden disenar algoritmos de aprendizaje y de toma de decisiones que 
funcionen en este espacio de estados conjunto y que por tanto sirvan para implementar 
y mejorar las actividades computacionales del agente. Finalmente, se espera que los al¬ 
goritmos especificos para unas tareas taies como la büsqueda alfa-beta y el encadena- 
miento hacia atrâs ( backward) desaparezcan de los sistemas IA, para ser sustituidos por 
métodos generales que dirijan los cômputos del agente hacia la generaciôn eficiente de 
decisiones de alta calidad. 
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27.3 <;Estamos llevando la direccion adecuada? 


En la seccion anterior mencionamos muchos avances y oportunidades para progresar. 
Pero, l'à qué nos lleva todo eso? Dreyfus (1992) ofrece la analogfa de intentar llegar a 
la luna trepando un ârbol, de manera que se puede informar de un progreso continuo has- 
ta llegar a conseguir la copa del ârbol. En esta seccion, estudiaremos si el camino actual 
de la IA es mas parecido a trepar un ârbol o a un viaje en cohete. 

En el Capitulo 1 dijimos que nuestro objetivo era construir agentes que actuaran 
racionalmente. Sin embargo, también dijimos que 

.. .alcanzar la racionalidad perfecta, haciendo siempre lo correcto, no es viable en entor- 
nos complicados. Las exigencias computacionales son simplemente muy elevadas. Sin 
embargo, en la mayor parte del libro, adoptaremos la hipotesis de trabajo en que la ra¬ 
cionalidad perfecta es un buen punto de comienzo (arranque) para el anâlisis. 


RACIONALIDAD 

PERFECTA 


RACIONALIDAD 

CALCULADORA 


RACIONALIDAD 

LIMITADA 


Ahora, es momento de considerar una vez mâs cuâl es exactamente el objetivo de la IA. 
Queremos construir agentes, pero, /,qué especificacion debemos tener en mente? Exis- 
ten cuatro posibilidades: 

Racionalidad perfecta. Un agente perfectamente racional actüa en cualquier ins¬ 
tante de tal manera que maximiza la utilidad esperada, dada la informaciôn que haya ad- 
quirido del entorno. Hemos observado que los câlculos necesarios para lograr la 
racionalidad perfecta en la mayoria de los entornos llevan demasiado tiempo, de forma 
que la racionalidad perfecta no es un objetivo realista. 

Racionalidad calculadora. Esta es la nocion de la racionalidad que hemos utiliza- 
do implicitamente al disenar agentes logicos y teoricos para las decisiones. Un agente 
calculadoramente racional finalmente devuelve lo que habrîa sido la opcion racional al 
comienzo de su deliberacion. Esta es una propiedad interesante para que un sistema la 
présente; sin embargo en la mayoria de los entornos, la respuesta adecuada no tiene va- 
lor en el momento equivocado. En la prâctica, los disenadores de sistemas IA se ven obli- 
gados a llegar a un compromiso sobre la calidad de las decisiones para obtener un 
rendimiento global razonable; desgraciadamente, la base teorica de la racionalidad 
calculadora no proporciona un modo bien fundado para llegar a dichos compromisos. 

Racionalidad limitada. Herbert Simon (1957) rechazô la nocion de racionalidad per¬ 
fecta (o incluso aproximadamente perfecta) y la reemplazo con la racionalidad limita¬ 
da, una teoria descriptiva de la toma de decisiones por agentes reales. Y en sus propias 
palabras, él escribiô: 


La capacidad de la mente humana para formular y resolver problemas complejos es muy 
pequena en comparacidn con el tamano de los problemas cuya soluciôn se requiere para 
un comportamiento objetivamente racional en el mundo real, o incluso para una aproxi- 
maciôn razonable a dicha racionalidad objetiva. 


Simon sugirio que la racionalidad limitada funciona en primer lugar satisfaciendo, es 
decir, deliberando solo el tiempo necesario para elaborar una respuesta que sea lo «su- 
ficientemente buena». Simon ganô el premio Nobel en economia por este trabajo y ha 
escrito mucho en profundidad acerca de este tema (Simon, 1982). En muchos casos, pa- 
rece que es un modelo ütil para los comportamientos humanos. Sin embargo, no es una 
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OPTIMALIDAD 

LIMITADA 


OPTIMALIDAD 

ASINTÔTICA 


especificaciôn formai para los agentes inteligentes, porque la definiciôn de «suficiente- 
mente bueno» no la ofrece esta teoria. Ademâs, satisfacer parece ser solo uno de la gran 
cantidad de métodos que se utilizan para hacer frente a recursos limitados. 

Optimalidad limitada ( Bounded optimality, BO). Un agente optimo limitado se com¬ 
porta todo lo bien que puede, dado sus recursos computacionales. Es decir, la utilidad 
esperada del programa agente para un agente optimo limitado es por lo menos tan ele- 
vada como la utilidad esperada de cualquier otro programa agente que se ejecute en la 
misma mâquina. 

De estas cuatro posibilidades, la optimalidad limitada parece ofrecer la mejor espe- 
ranza de conseguir un fundamento teôrico fuerte para la IA. Tiene la ventaja de que es 
posible conseguirla; existe siempre por lo menos un mejor programa, algo de lo que ca- 
rece la racionalidad perfecta. Los agentes ôptimos limitados son realmente ütiles en el 
mundo real, mientras que los agentes calculadoramente racionales normalmente no lo 
son, y los agentes satisfactores podrfan serlo o no dependiendo de sus propios caprichos. 

El enfoque tradicional de la IA ha sido empezar con la racionalidad calculadora y a 
continuaciôn hacer concesiones para satisfacer las restricciones de los recursos. Si los 
problemas impuestos por las restricciones son de menor importancia, se podria esperar 
que el diseno final sea similar al diseno de agentes BO. Pero a medida que las restric¬ 
ciones de los recursos se hacen mas crfticas, por ejemplo, a medida que el entorno es 
mas complejo se podria esperar que los disenos vayan a divergir. En la teoria de la op¬ 
timalidad limitada, estas restricciones se pueden abordar de una manera escrupulosa. 

Hasta ahora, no se conoce mucho sobre la optimalidad limitada. Es posible construir 
programas de optimalidad limitada para mâquinas muy simples y para clases de entor- 
nos algo restringidos (Etzioni, 1989; Russell et al., 1993), pero todavia no tenemos idea 
de como serân los programas BO para grandes computadores de uso general en entor- 
nos complejos. Si va a existir una teoria constmctiva de la optimalidad limitada, tene¬ 
mos que esperar que el diseno de los programas ôptimos limitados no dependa demasiado 
de los detalles del computador que se esta utilizando. Ello haria que la investigaciôn cien- 
tifica fuera muy dificil si anadir unos pocos kilobytes de memoria a una mâquina de gi- 
gabytes cambiara significativamente el diseno del programa BO. Una forma de 
asegurarnos de que esto no ocurra es estar ligeramente mas tranquilos con los criterios 
de optimalidad limitada. Por analogia con la nociôn de complejidad asintôtica 
(ABO)(Apéndice A), la optimalidad limitada asintôtica (ABO, Asymptotic Bounded 
Optimality) se puede définir de la siguiente forma (Russell y Subramanian, 1995). Su- 
pongamos que el programa P es un programa optimo limitado para la mâquina M en la 
clase de entomos E, en donde la complejidad de los entomos en E no estâ limitada. En¬ 
fonces el programa P’ es ABO para M en E si puede superar a P ejecutândose en una 
mâquina kM que es k veces mâs râpida (o mayor) que M. A menos que k fuera enorme, 
estariamos encantados de que un programa fuera ABO para un entorno no trivial en una 
arquitectura no trivial. No tendria sentido esforzarnos por encontrar programas BO en 
vez de ABO, porque de todas formas el tamano y la velocidad de las mâquinas dispo¬ 
nibles tiende a multiplicarse por un factor constante en una cantidad fija de tiempo. 

Podriamos arriesgar el pronôstico de que los programas BO o ABO para computa¬ 
dores potentes en entornos complejos no tendrân necesariamente una estructura simple 
y elegante. Y hemos visto ya que la inteligencia de propôsito general requiere capaci- 
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dad de reflejos y alguna capacidad deliberativa, una variedad de formas de conoci- 
miento y toma de decisiones, mecanismos de aprendizaje y de compilacion para todas 
esas formas, métodos de controlar el razonamiento, y un gran almacén de conocimien- 
tos especfficos del dominio. Un agente optimo limitado se debe adaptar al entorno en el 
que se encuentra de manera que su organizacion interna pueda reflejar las optimizacio- 
nes que sean especfficas para ese entorno en particular. Esto es esperable, y es similar a 
la manera en que los coches de carreras restringidos por la capacidad del motor han evo- 
lucionado hasta tener disenos extremadamente complejos. Sospechamos que una cien- 
cia de inteligencia artificial basada en la optimalidad limitada conllevarâ realizar un 
estudio amplio de los procesos que permiten a un programa de agentes converger hacia 
la optimalidad limitada y quizâ con una concentracion inferior en los detalles de los pro- 
gramas complicados que se obtengan como resultado. 

Resumiendo, se propone un concepto de optimalidad limitada como una tarea for¬ 
mai para la investigacion de la IA que esté bien definida y que sea viable. La optimali¬ 
dad limitada especifica programas optimos en vez de acciones optimas. Las acciones, 
después de todo, son generadas por programas, y es sobre los programas en donde tie- 
nen control los disenadores. 


27.4 iQué ocurrirîa si la IA tuviera éxito? 


En la novela de David Lodge, Small World (1984) sobre el mundo académico de la critica 
literaria, el protagonista causa constemaciôn cuando pregunta a un panel de teoricos 
literarios eminentes, pero contradictorios la siguiente cuestion: «/,Qué ocurrirîa si uste- 
des tuvieran razon?» Ninguno de los teoricos parece haber considerado antes esta cues¬ 
tion, quizâ porque debatir teorias infalsificables es un fin en si mismo. Una confusion 
similar algunas veces se puede evocar preguntando a los investigadores en IA, «/,Qué 
ocurrirîa si tuvieran éxito?». La IA es fascinante, los computadores inteligentes son 
obviamente mas utiles que los computadores no inteligentes, por tanto / ; por qué hay que 
preocuparse? 

Como se dijo en el Apartado 26.3, existen temas éticos a tener en cuenta. Los com¬ 
putadores inteligentes son mas potentes, pero ;sc va a utilizar ese poder para fines 
buenos o malos? Aquellos que se esfuerzan por desarrollar la IA tienen la responsabili- 
dad de ver que el impacto de su trabajo es positivo. El alcance de este impacto depen- 
derâ del grado de éxito de la IA. Y ya se han obtenido éxitos modestos que han cambiado 
las formas de ensenar la informâtica (Stein, 2002) y las formas en que se practica el 
desarrollo del software. La IA ha hecho posibles aplicaciones nuevas taies como los 
sistemas de reconocimiento de voz, sistemas de control de inventarios, sistemas de 
vigilancia, robots y motores de büsqueda. 

Se puede esperar que los éxitos de medio nivel en IA afectarân a toda clase de gen- 
te en sus vidas cotidianas. Hasta ahora, las redes de comunicaciones computerizadas, 
taies como los teléfonos moviles (celulares) e Internet, han tenido este tipo de efecto 
pénétrante o dominante en la sociedad, pero la IA no. Podemos imaginar que los asis- 
tentes personales verdaderamente ütiles para la oficina o para casa tendrian un impacto 
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positivo sobre las vidas de las personas, aunque a corto plazo podrian causar disloca- 
ciones econômicas. Una capacidad tecnolôgica a este nivel también se puede aplicar al 
desarrollo de armas autônomas, que muchos ven como un avance indeseable. 

Finalmente, parece probable que un éxito en IA a gran escala, la création de inteli- 
gencia en el nivel humano y mas alla, cambiaria las vidas a una mayorfa de la humani- 
dad. La verdadera naturaleza de nuestro trabajo y de nuestro papel cambiaria asi como 
nuestro punto de vista de la inteligencia, la consciencia y el destino futuro de la raza 
humana. A este nivel, los sistemas LA podrian suponer una amenaza directa a la autonomia 
humana, la libertad, e incluso la supervivencia. Por estas razones, la investigation en IA 
no se puede divorciar de sus consecuencias éticas. 

/ ; Qué camino depararâ el futuro? Los autores de ciencia fiction parecen estar a favor 
de futures anti-utopicos en vez de los utôpicos, probablemente porque se producen ar¬ 
gumentas mas interesantes. Sin embargo hasta la fecha, la IA parece encajar con otras 
tecnologias revolucionarias (imprenta, fontaneria, viajes en avion, telefonia) cuyas 
repercusiones negativas son compensadas por sus aspectos positivos. 

En conclusion, se puede observar que la IA ha progresado a lo largo de su corta 
existencia, pero todavia hoy tiene validez la frase del ensayo de Alan Turing sobre 
Computing Machinery and Intelligence : 

«Podemos observar solo a poca distancia hacia delante, pero también se puede ver que 
todavia queda mucho por hacer.» 




Fundamentos 

matemâticos 


A.l Anâlisis de la complejidad y la notacion 0( ) 


Los cicntfficos informâticos se suelen enfrentar con la tarea de comparar algoritmos para 
ver la rapidez de ejecuciôn y la cantidad de memoria que requieren. Existen dos enfo- 
pruebas ques para abordar esta tarea. El primero son las pruebas de evaluaciôn ( benchmarking ), 

c JN ejecutar los algoritmos en un computador y medir la velocidad en segundos y el consu- 

mo de memoria en bytes. En ültima instancia, esto es lo que importa de verdad, pero una 
pmeba de evaluaciôn puede no resultar satisfactoria porque es tan especifica: mide el ren- 
dimiento de un programa en particular escrito en un lenguaje de programaciôn, ejecu- 
tândose en un computador especifico, con un compilador especifico y una entrada de datos 
especifica. A partir del resultado que se obtenga de esta prueba puede resultar dificil pre- 
decir el funcionamiento del algoritmo en un compilador, computador o conjunto de da¬ 
tos diferentes. 


Anâlisis asintôtico 

anâlisis El segundo enfoque dépende del anâlisis de algoritmos, independientemente de la im- 

plementaciôn y entrada en particular. Examinaremos este enfoque mediante el ejemplo si- 
guiente, un programa para calcular la suma de una secuencia de numéros: 


funciôn Suma (secuencia) devuelve un numéro 
suma <— 0 

desde i <— 1 hasta Longitd (secuencia) 
suma <— suma + secuencia\i\ 
devolver suma 
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ANÂLISIS ASINTÔTICO 


ANÂLISIS 
DE COMPLEJIDAD 


El primer paso del anâlisis es abstraer la entrada, para encontrar algün parâmetro o 
paramétras que caractericen el tamano de la entrada. En este ejemplo, la entrada puede 
ser caracterizada por la longitud de la secuencia, que llamaremos n. El segundo paso es 
abstraer la implementaciôn, para encontrar alguna medida que refleje el tiempo de 
ejecuciôn del algoritmo, pero que no esté ligado a un compilador o computador en par- 
ticular. Para el programa Suma, esto podria ser simplemente el nümero de lrneas de côdigo 
ejecutadas, o podria ser mas detallado midiendo el nümero de sumas, asignaciones, re- 
ferencias a arrays y bifurcaciones ejecutadas por el algoritmo. Ambas formas ofrecen 
una caracterizacion del nümero total de pasos del algoritmo como una funciôn del ta¬ 
mano de la entrada. A esta caracterizacion la llamaremos T(n). Si contamos las lineas 
de côdigo, para este ejemplo tendremos T(n) = 2 n + 2. 

Si todos los programas fueran tan simples como el programa Suma, el anâlisis de 
los algoritmos séria un campo trivial. En primer lugar, es extrano encontrar un parâme¬ 
tro como n que caracterice completamente el nümero de pasos realizados por el algo¬ 
ritmo. En lugar de eso, lo mejor que podemos hacer es calcular el peor caso T (n) o el 
caso promedio T piom (n). Computar un promedio significa que el analista presupone 
alguna distribuciôn de las entradas. 

El segundo problema es que los algoritmos tienden a resistirse al anâlisis exacto. En 
ese caso, es necesario replegarse a una aproximaciôn. Decimos que el algoritmo Suma 
es 0(n), lo que significa que su medida es a lo sumo una constante por n, con la posi- 
ble excepciôn de unos cuantos valores pequenos de n. Mâs formalmente, 

T(n) es 0{f{n )) si T(n) ^ kf(n) para algunos k, para todo n > n 0 . 

La notaciôn ()( ) nos proporciona lo que llamamos un anâlisis asintôtico. Sin lugar a 
dudas, podremos decir que, como n se aproxima asintôticamente al infinito, un algorit¬ 
mo 0{ ) es mejor que un algoritmo 0(n 2 ). Una sola cifra de prueba de evaluaciôn no po¬ 
dria corroborar dicha afirmaciôn. 

La notaciôn 0{ ) abstrae los factores constantes, lo cual facilita su utilizaciôn, 
aunque de forma menos précisa, que la notaciôn T{ ). Por ejemplo, un algoritmo ()(n 2 ) 
a la larga siempre serâ peor que uno O(n), pero si los dos algoritmos son T(n 2 + 1) y 
r(100» + 1000), enfonces el algoritmo 0(n 2 ) es realmente mejor para n = 110. 

A pesar de este inconveniente, el anâlisis asintôtico es la herramienta mâs utilizada para 
analizar algoritmos. Es asi precisamente porque el anâlisis abstrae tanto el nümero exac¬ 
to de operaciones (ignorando el factor constante k) como el contenido exacto de la entra¬ 
da (teniendo en cuenta solo el tamano n) que se convierte en matemâticamente factible. 
La notaciôn 0( ) es un buen compromiso entre la précision y la facilidad de anâlisis. 


Los problemas inherentemente difïciles y NP 

El anâlisis de algoritmos y la notaciôn 0( ) nos permiten hablar sobre la eficiencia de 
un algoritmo en particular. Sin embargo, no tienen nada que decir con respecto a si po¬ 
dria existir un algoritmo mejor para el problema actual. El campo del anâlisis de com- 
plejidad analiza problemas, no algoritmos. La primera gran division se realiza entre los 
problemas que se pueden resolver en tiempo polinomial y los problemas que no pueden 
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COMPLETOS NP 


CO-NP 


COMPLETOS CO-NP 


resolverse en tiempo polimonial, sin importar el algoritmo que se use. La clase de los 
problemas polinomiales, los que se pueden resolver en tiempo 0(n k ) para k, se llama P. 
Algunas veces se llaman problemas «faciles», porque la clase contiene esos problemas 
con tiempo 0(log ri) y O(n). Sin embargo también contiene los problemas con tiempos 
de ejecucion como O(/; 100 °), de manera que la denominaciôn de «fâcil» no se deberia to- 
mar demasiado al pie de la letra. 

Otra clase importante de problemas es NP, la clase de problemas polinomiales no 
deterministas. Un problema se encuentra en esta clase si existe algün algoritmo que pue- 
da averiguar una solucion y a continuaciôn verificar si esa averiguaciôn es correcta en 
tiempo polinomial. La idea es que si tenemos un nümero de procesadores arbitrariamente 
grande, para probar todas las averiguaciones de una vez, o si somos afortunados y siem- 
pre averiguamos lo correcto la primera vez, enfonces los problemas NP se convierten en 
problemas P. Una de las preguntas mas importantes y mas abiertas en informâtica es si 
la clase NP équivale a la clase P cuando no se tiene el lujo de tener un nümero infinito 
de procesadores o averiguaciones omniscientes. La mayoria de los informâticos estân 
convencidos de que P / NP, es decir que los problemas NP son inherentemente difici- 
les y no tienen algoritmos de tiempo polinomial. Pero esto todavia no se ha podido 
demostrar. 

Todo el que esté interesado en decidir si P = NP, tendra que estudiar una subclase 
de NP llamada problemas complètes NP. La palabra «completos» se utiliza en el sen- 
tido de «los mas extremos» y se refiere por tanto a los problemas mas dificiles de la cla¬ 
se NP. Se ha demostrado que o estân en P todos los problemas completos de NP o no 
esta ninguno. Esto hace que esta clase sea teoricamente interesante, pero la clase tam¬ 
bién es de interés prâctico, porque muchos problemas importantes se sabe que son pro¬ 
blemas NP completos. Un ejemplo es el problema de la satisfabilidad: dada una sentencia 
de logica proposicional, £ existe una asignacion de valores verdad a los simbolos de pro- 
posicion de la sentencia que hagan que sea verdadera? A menos que ocurra un milagro 
y P = NP, no puede existir un algoritmo que resuelva todos los problemas en tiempo po¬ 
linomial. Sin embargo, la IA esta mucho mas interesada en si existen algoritmos que fun- 
cionen mas eficientemente con problemas tîpicos extraidos de una distribucion 
predeterminada; como vimos en el Capitulo 7, existen algoritmos taies como WalkSAT, 
que funcionan muy bien en muchos problemas. 

La clase co-NP es el complemento de NP, en el sentido de que para todos los pro¬ 
blemas de decisiones en NP, existe un problema correspondiente en co-NP con las res- 
puestas «si» y «no» invertidas. Sabemos que P es un subconjunto tanto de co-NP como 
de NP, y se créé que hay problemas en co-NP que no estân en P. Los problemas com¬ 
pletos co-NP son los mâs dificiles de co-NP. 

La clase #P (pronunciado «sharp P», «P almohadilla») es el conjunto de problemas 
de computo correspondiente a los problemas de decisiones en NP. Los problemas de de¬ 
cisiones obtienen la respuesta si-o-no: £ existe una solucion para la formula 3-SAT? Los 
problemas de computo obtienen como respuesta un entero: /eu an tas soluciones existen 
para la formula 3-SAT? En algunos casos, el problema del computo es mucho mâs di- 
ficil que el problema de la decision. Por ejemplo, decidir si un grafo bipartito tiene una 
correspondencia perfecta se puede hacer en tiempo 0(V E) (en donde el grafo tiene V 
vértices y E bordes), sin embargo el problema de câlculos «cuântas correspondencias per- 
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A.2 


VECTOR 


MATRIZ 


fectas tiene este grafo bipartite»» es un problema completo de #P y es por lo menos tan 
difïcil como cualquier problema NP. 

También se ha estudiado la clase de problemas PSPACE, los que requieren una can- 
tidad de espacio polinomial, incluso en una mâquina no determinista. Se piensa que los 
problemas PSPACE difïciles son peores que los problemas completos NP, aunque po- 
drfa resultar que NP = PSPACE, de la misma forma que podrfa ser P = NP 


Vectores, matrices y âlgebra lineal 


Los matemâticos definen un vector como un miembro de un espacio vectorial, sin em¬ 
bargo nosotros vamos a utilizar una definicion mucho mas concreta: un vector es una 
secuencia ordenada de valores. Por ejemplo, en el espacio bi-dimensional, tenemos dos 
vectores taies como x = <3, 4) e y = <(0, 2). Nosotros seguimos la convencion usual 
de utilizar caractères en negrita para los nombres de los vectores, aunque algunos auto¬ 
res utilicen las fléchas o las barras sobre los nombres: je o y. Se puede accéder a los ele- 
mentos de un vector mediante subindices: z = (z v z 2 , ..., z„). 

Las dos operaciones fundamentales de los vectores son la suma de vectores y la 
multiplicacion escalar. La suma de vectores x + y es la suma elemento a elemento: 
x + y = (3 + 0, 4 + 2) = <3, 6). La multiplicacion escalar multiplica cada elemento 
por una constante: 5x = (5 X 3, 5 X 4) = <15, 20). 

La longitud de un vector se dénota |x| y se calcula tomando la raiz cuadrada de la 
suma de los cuadrados de los elementos: |x| = V(3 2 + 4 2 ) = 5. El producto punto (tam¬ 
bién llamado producto escalar) de dos vectores x • y es la suma de los productos de los 
elementos correspondientes, es decir, x • y = 2,- x j y i , o en nuestro caso particular, 
x-y = 3X0 + 4X2 = 8. 

Los vectores se suelen interpretar como segmentos de lfneas dirigidas (fléchas) en 
un espacio n-dimensional. La suma de vectores enfonces es équivalente a colocar la cola 
del vector al principio del otro, y el producto punto x • y es igual a Ixl lyl cos 0, en don- 
de 6 es el ângulo entre x e y. 

Una matriz es un array rectangular de valores organizada en filas y columnas. Esta 
es la matriz m de tamano 3X4. 


m u 

m i,2 

m i,3 

m i, 4 

m 2,l 

m 2,2 

m 2,3 

m 2,4 

m 3,l 

m 3,2 

m 33 

m 3,4 


El primer indice de m, especifica la fila y el segundo la columna. En los lenguajes de 
programacion, m . a menudo se escribe m [ i, j ] o m [ i ] [ j ]. 

La suma de las dos matrices se define sumando los elementos correspondientes; asi 
pues, (m + n),.. = m . + n .. (La suma no se define si m y n tienen diferentes tamanos). 
También podemos définir la multiplicacion de una matriz por un escalar: (cm),. = cm,.. 
La multiplicacion de matrices (el producto de dos matrices) es mas complicada. El pro¬ 
ducto mn se define solo si m es de tamano a X b y n de tamano b X c (es decir, la se- 
gunda matriz tiene el mismo nümero de filas que la primera de columnas); el resultado 
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ELIMINACIÔN 

GAUSS-JORDAN 


es una matriz de tamano a X c. Esto significa que la multiplicaciôn de matrices no es 
conmutativa: mn ri mn en general. Si las matrices son del tamano apropiado, entonces 
el resultado es 


(mn \ k = S m n ; 

i 

La matriz de identidad I tiene elementos I ( / iguales a 1 cuando i = j c iguales a 0 en 
otros casos. Tiene la propiedad de que ml = m para toda m. La transposiciôn de m, es- 
crito m 7 se forma convirtiendo filas en columnas y viceversa, o de manera mas formai, 
mediante m 7 . = m .. 

Las matrices se utilizan para resolver sistemas de ecuaciones lineales mediante un 
proceso llamado eliminaciôn Gauss-Jordan, un algoritmo O(ir). Consideremos el 
siguiente grupo de ecuaciones, para el que queremos una solucion en x, y y z: 

+2x + y — z — 8 
-3x — y + 2z = 11 
—2x + y + 2 z = —3. 

Podemos representar este sistema como una matriz: 


x y z c 



Aqui, x y z c no es parte de la matriz; existe simplemente un recordatorio para el que lo 
ve. Sabemos que si multiplicamos ambos lados de una ecuacion por una constante o su- 
mamos dos ecuaciones, obtenemos una ecuacion igualmente valida. La eliminaciôn 
Gauss-Jordan funciona realizando estas operaciones de forma repetida de tal forma que 
comenzamos eliminando la primera variable (x) de todo, excepto de la primera ecuacion, 
y entonces continuamos eliminando la variable z-ésima de todo excepto de la ecuacion 
z'-ésima, para todo z. Eliminamos x de la segunda ecuacion multiplicando la primera ecua- 
ciôn por 3/2 y sumândola a la segunda. Esto da la matriz siguiente: 

x y z c 

/ 2 1-1 8 \ 

I 0 0,5 0,5 1 I 

\-2 1 2 -3/ 

Continuamos de esta manera, eliminando x, y y z hasta obtener 

x y z c 

/I 0 0 2\ 

I 0 1 0 3 ) 

\0 0 1 - 1 / 


indicando que x = 2, y = 3, z 


1 es una solucion. (jlnténtelo!) 
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A.3 Distribuciones de probabilidades 


Una probabilidad es una medida sobre un conjunto de sucesos (eventos) que satisface 
très axiomas: 

1. La medida de cada suceso esta entre 0 y 1. Escribimos esto como 0 < P(E — e) 
< 1, en donde E es una variable aleatoria que représenta un evento y e x son va- 
lores posibles de E. En general, las variables aleatorias se denotan por letras ma- 
yüsculas y sus valores por letras minüsculas. 

2. La medida del conjunto compléta es 1; es decir 2” =1 P(E = e) = 1. 

3. La probabilidad de una union de sucesos disjuntos es la suma de las probabili¬ 
dades de los sucesos individuales; es decir, P(E = e x v E = e 2 ) = P(E = e t ) + 
P(E — e 2 ), donde e x y e 2 son disjuntos. 

Un modelo probabilîstico consiste en un espacio muestral de resultados posibles mu- 
tuamente excluyentes, junto con una medida de probabilidad para cada resultado. Por ejem- 
plo, en un modelo de pronôstico del tiempo para manana, los resultados podrian ser 
soleado, nubloso, lluvioso y con nieve. Un subconjunto de estas resultados constituye un 
suceso. Por ejemplo, el evento de precipitaciones es el conjunto {lluvioso, con nieve). 

Utilizaremos P(E) para denotar el vector de valores (P{E = <?,),..., P(E — <? n )). Tam- 
bién utilizamos P(e) como una abreviatura para P(E = e t ) y P(e) para 2" , P(E = e). 

La probabilidad condicional P(B\A ) se define como Pi B n A)/P(A). A y B son in¬ 
dépendantes condicionalmente si P(B\A ) = Pi B) (o de manera équivalente, P(B\A) — 
P(A)). Para las variables continuas, existe un nümero infinito de valores, y a menos que 
funcion existan picos, la probabilidad de cualquier valor es 0. Por tanto, definimos una funciôn 

DE DENSIDAD 

de probabilidad de densidad de probabdidad, que denotamos también como P(X), pero que tiene un 
significado ligeramente diferente de la funcion de probabilidad discreta P(A). La fun¬ 
cion de densidad P(X = c ) se define como el ratio de la probabilidad de que X se en- 
cuentra en un intervalo en torno a c, dividido por el ancho del intervalo, a medida que 
el ancho del intervalo tiende a cero: 

P(X = c) = Km P (c ^ X c + dx)/dx . 

dx^O 


La funcion de densidad debe ser no negativa para toda x y debe tener 


f P(X)dx = 1. 


FUNCION 
DE DENSIDAD 
DE PROBABILIDAD 
ACUMULADA 


También definimos una funciôn de densidad de probabilidades acumulada F(X), 
que es la probabilidad de que una variable aleatoria sea menor que x: 


F(X) = J P(Z)dz. 


Tengamos en cuenta que la funciôn de densidad tiene unidades, mientras que la funciôn 
de probabilidades discreta no tiene unidades. Por ejemplo, si X se mide en segundos, 
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GAUSSIANA 


DISTRIBUCIÔN 
NORMAL ESTÂNDAR 


DISTRIBUCIÔN 

GAUSSIANA 

MULTIVARIADA 


MATRIZ 

DE CO-VARIANZA 


TEOREMA DE LIMITE 
CENTRAL 



entonces la densidad se mide en Hz (es decir, 1/seg.) Si X es un punto en el espacio 
tridimensional medido en métros, entonces la densidad se mide en l/m 3 . 

Una de las distribuciones de probabilidad mas importantes es la distribuciôn 
gaussiana, también conocida como la distribuciôn normal. Una distribuciôn Gaussia- 
na, con media /d y desviaciôn estândar G (y por tanto una varianza a 2 ) se define como 


P{x) 


(jVZ7T e 


en donde x es una variable continua que va desde -«> a +°°. Con U = 0 medio y dis- 
crepancia cr = 1, obtenemos el caso especial de la distribuciôn normal estândar. Para 
una distribuciôn sobre un vector x en d dimensiones, existe la distribuciôn gaussiana 
multivariada: 

e -j((x-A0 T £ _1 (*-A0) 

en donde /u es el vector media y Z es la matriz de co-varianza de la distribuciôn. 

En una dimension, también podemos définir la distribuciôn acumulada F{x) como 
la probabilidad de que una variable aleatoria sea menor que x. Para la distribuciôn 
normal estândar, esto esta dado como 

F(X) = [/><*)& = }( l+=rf(fvf)). 

en donde erf(x) es la llamada funciôn de errores, que no tiene representaciôn formai 
cerrada. 

El teorema de limite central afirma que la media de n variables aleatorias tiende a 
una distribuciôn normal a medida que n tiende al infinito. Esto se mantiene para cual- 
quier grupo de variables aleatorias, a menos que la varianza de cualquier subconjunto 
finito de variables domine a las otras. 


P(x) = 


1 


(2/r)"|X| 


Notas bibliogrâficas e histôricas 

La notaciôn ()( ) que tanto se utiliza actualmente en informâtica fue introducida por pri¬ 
mera vez en el contexto de una teoria de nümeros por el matemâtico alemân P.G.H. Bach- 
mann (1984). El concepto de NP-completitud fue inventado por Cook (1971), y el método 
modemo para establecer una reducciôn de un problema a otro se debe a Karp (1972). 
Cook y Karp han ganado el premio Turing, el mayor reconocimiento en informâtica, por 
su trabajo. 

Entre los trabajos clâsicos sobre anâlisis y diseno de algoritmos se incluyen los de 
Knuth (1973) y Aho, Hopcroft y Ullman (1974); contribuciones mâs recientes son las 
de Tarjan (1983) y Cormen, Leiserson y Rivest (1990). Estos libres ponen énfasis en 
el diseno y el anâlisis de algoritmos para resolver problemas tratables. Para la teoria 
de NP completitud y otras formas de intratabilidad, véase Garey y Johnson (1979) o 
Papadimitriou (1994). Ademâs de esta teoria, Garey y Johnson proporcionan ejemplos 
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que representan con mucha fuerza por qué los cientificos informâticos son unanimes al 
establecer la llnea entre los problemas tratables e intratables en la frontera entre la com- 
plejidad de tiempo polinomial y exponencial. También proporcionan un catâlogo volu- 
minoso de problemas que son conocidos por ser complétas NP o por otro lado intratables. 

Entre otros textos interesantes sobre âlgebra lineal se incluyen a Chung (1979) y Ross 
(1988). Para probabilidad, son valiosas las obras de Bertsekas y Tsitsiklis (2002) y 
Feller (1971). 


B 


Notas sobre lenguajes 
y algoritmos 


B.l Defmicion de lenguajes 

con Backus-Naur Form (BNF) 


En este libro, hemos definido varios lenguajes incluyendo los lenguajes de logica pro- 
posicional (Apartado 7.4), logica de primer orden (Apartado 8.2) y un subconjunto del 
inglés (Apartado 22.3). Un lenguaje formai se define como un conjunto de cadenas en 
donde cada cadena es una secuencia de simbolos. Todos los lenguajes en los que esta- 
mos interesados se componen de un conjunto infinito de cadenas, de manera que nece- 
sitamos una manera concisa de caracterizar ese conjunto. Eso es lo que hacemos con una 
gramâtica. Escribimos las gramâticas en un formalismo llamado Backus-Naur Form 
(BNF). En una gramâtica BNF existen cuatro componentes: 

• Un conjunto de shubolos terminales. Estos son los sûnbolos o palabras que com¬ 
ponen las cadenas del lenguaje. Podrian ser letras (A, B, C, ...) o las palabras (a, 

aardvark, abacus,...). 

• Un conjunto de sûnbolos no terminales para categorizar (dividir por categorias) 
subfrases del lenguaje. Por ejemplo, el simbolo no terminal FraseNominal en in¬ 
glés dénota un conjunto infinito de cadenas incluyendo «you» y «the big slobbery 
dog» (el perro grande y baboso). 

simbolos de inicio • El simbolo de inicio es un simbolo no terminal que représenta las cadenas com¬ 

plétas del lenguaje. En inglés, esto es una Sentencia r; en aritmética podria ser 
Expr. 

• Un conjunto de réglas de reescritura, de la forma LHS —> RHS, en donde LH S 
no es terminal y RHS es una secuencia de cero o mas simbolos (o bien terminal o 
no terminal). 


SIMBOLOS NO 
TERMINALES 


BACKUS-NAUR FORM 
(BNF) 


SIMBOLOS 

TERMINALES 
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Una régla de reescritura de la forma 

Sentencia —* FraseNominal FraseVerbal 

significa que siempre que tengamos dos cadenas clasificadas como un FraseNominal y 
un FraseVerbal, podremos juntarlas y categorizar el resultado como una Sentencia. 
Como abreviatura, para separar lados derechos alternativos se puede utilizar el simbo- 
lo |. A continuacion se muestra una gramâtica BNF para expresiones aritméticas senci- 
llas: 


Expr Operador Expr \ ( Expr ) | Numéro 
Di'gito | Numéro Dlgito 

0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8|9 

+ | - | - | X 

En el Capftulo 22 los lenguajes y las gramâticas se abordaron con mas profundidad. 
Somos conscientes de que otros libres utilizan notaciones ligeramente diferentes de BNF; 
por ejemplo, se puede utilizar < Dlgito ) en vez de Dlgito para un no terminal, «palabra» 
en vez de palabra para un terminal, o bien : : = en vez de —» en una régla. 


Expr 

Numéro 

Dlgito 

Operador 


B.2 Algoritmos de description en pseudocodigo 


En este libre se definen con detalle mas de 80 algoritmos. En lugar de seleccionar un 
lenguaje de programaciôn (y correr el riesgo ante la posibilidad de que los lectores que 
no estân familiarizados se pierdan), hemos optado por describir algoritmos en pseudo¬ 
codigo. La mayor parte del pseudocodigo deberia resultar familiar para usuarios de len¬ 
guajes como Java, C + + y Lisp. En algunos sitios utilizamos formulas matemâticas o 
inglés ordinario (o espanol) para describir partes que de otra manera serian muy pesa- 
das. Deberfan senalarse algunas idiosincrasias. 

Variables estâticas. Utilizamos la palabra clave estâtica para decir que una varia¬ 
ble recibe un valor inicial la primera vez que se llama a una funcion y retiene ese valor 
(o el valor asignado por la sentencia de asignacion siguiente) en las siguientes llamadas 
a la funcion. Por consiguiente, las variables estâticas son como las variables globales que 
sobreviven a una ünica llamada a su funcion, pero son accesibles solo dentro de la 
funcion. Los programas de agentes de este libre utilizan variables estâticas para la «me- 
moria». Los programas con variables estâticas se pueden implementar como «objetos» 
en lenguajes orientados a objetos, taies como Java y Smalltalk. En los lenguajes fun- 
cionales, se pueden implementar por cierres funcionales en un entomo en el que se definen 
las variables requeridas. 

Funciones como valores. Las funciones y los procedimientos tienen nombres en 
mayüsculas, y las variables tienen nombres en cursiva y minüscula. Por tanto la mayor 
parte del tiempo, una llamada a funcion se asemeja a Fn(x). Sin embargo, permitimos 
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que el valor de una variable sea una funcion; por ejemplo, si el valor de la variable/es 
la funcion raiz cuadrada, enfonces/(9) devuelve 3. 

Los arrays comienzan en 1 . A menos que se afirme otra cosa, el primer indice de 
un array es 1 como en la notaciôn matemâtica usual, no 0, como en Java y en C. 

La indentaciôn (el sangrado) es significativa. La indentacion se utiliza para marcar 
el âmbito (alcance) de un bucle o condicional, como en el lenguaje Python, y a diferen- 
cia de Java y C+ + (que utilizan corchetes) o Pascal y Visual Basic que (utilizan end). 


B.3 Ayuda en lmea 


La mayoria de los algoritmos de este libro se han implementado en nuestro repositorio 
(deposito) de codigo en linea: 



aiina.cs.berkeley.edu 

Si tiene algün comentario, correcciôn o sugerencia para mejorar el libro, nos gustaria 
conocerlos. Por favor, visite la pagina Web para instrucciones y listas de discusion, o envie 
un mensaje de correo electrônico a: 


aima@cs.berkeley.edu 
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La primera ediciôn de Inteligencia Artificial: Un Enfoque Moderno se ha convertido en un clésico de la 
literatura sobre la IA. Ha sido adoptado por 600 universidades de 60 paises y ha recibido elogios por ser 
una sintesis definitiva de este campo. Se ha dicho por ejemplo que: 
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T Ediciôn 



"La publicaciôn de este libro de texto fue un avance importante, no solo para la ensenanza en el campo 
de la IA, sino también por el punto de vista unificado que introduce. Incluso, los expertos encuentran 
que todos los capîtulos realizan importantes incursiones en la investigaciôn de este campo." _Prof. 
Thomas Dietterich (Estado de Oregon) 

"Es simplemente magnîfico. El libro que siempre he estado esperando... es como la Biblia de la IA para 
la proxima década." _Prof. Gerd Brewka (Viena) 

"Un logro maravilloso, un libro verdaderamente precioso." _Prof. Selmer Bringsjord (RPI) 

"Es un gran libro, con una profundidad y una amplitud increibles, y muy bien escrito. Sé que todas las 
personas que lo han utilizado en sus clases han disfrutado con él." _Prof. Haym Hirsh (Rutgers) 

"Me ha impresionado profundamente esa calidad sin precedentes al presentar el campo de la IA con 
una imagen coherente, equilibrada, extensa y profunda. Se va a convertir en el libro de texto estândar 
durante los prôximos anos." _Prof. Wolfgang Bibel (Darmstadt) 

"jEs magnîfico! Esta bien escrito, tiene una estructura muy buena, y disfruta de toda la cobertura 
informativa que deberia conocertodo estudiante de IA."_Prof. Martha Pollack (Michigan) 
"Excepcional... Las descripciones son verdaderamente claras y legibles, y su estructura es excelente; 
los ejemplos son motivadores y su cobertura informativa es académica y profunda. Va a dominar su 
campo durante un tiempo por méritos propios." _Prof. Nils Nilsson (Stanford) 

"El mejor libro de que disponemos por ahora... Es casi tan bueno como el que escribimos Charniak y yo, 
pero mâs actualizado. (De acuerdo, lo admitiré, puede que incluso sea mejor que nuestro libro.)" _Prof. 
Drew McDermott (Yale) 

"Un informe magistral de gran alcance en el campo de la Inteligencia Artificial que iluminarâ a 
profesores, asî como a alumnos." _Dr. Alan Kay 



"Este es el libro que me hizo amar la IA." _Alumno (Indonesia) 

En la segunda ediciôn, todos los capîtulos se han reescrito de forma extensa. Se ha introducido material 
nuevo y elocuente para abarcar areas taies como la satisfacciôn de las limitaciones, gréficos de 
planificaciones, agentes de Internet, inferencia de probabilîstica exacta, técnicas Monte Carlo de la 
cadena Marion, filtros Kalman, métodos de aprendizaje de conjuntos, aprendizaje estadîstico, modelos 
de lenguajes naturales probabilîsticos, robôtica probabilîstica y aspectos éticos de la IA. 


El libro tiene un soporte variado de recursos en lînea ( online ) incluyendo côdigos fuente, figuras, 
diapositivas para clase, un directorio de 800 enlaces con la IA en la Web y un grupo de debate en lînea 
(online). Toda esta informaciôn se encuentra disponible en: 


aima.cs.berkeley.edu 



LibroSite es una pagina web asociada al libro, con una gran variedad de recursos y material 
adicional tanto para los profesores como para estudiantes. Apoyos a la docencia, ejercicios 
de autocontrol, enlaces relacionados, material de investigaciôn, etc., hacen de LibroSite el 
complemento académico perfecto para este libro. 
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